我是詹姆斯,水星科技解决方案的CEO。 香港 - 2026年2月20日
在水星,我们相信最大化杠杆。最近,我注意到我的API账单在逐渐增加,Claude Sonnet 4.5(通过OpenClaw和Telegram运行)每百万个令牌的输入费用为3美元,输出费用为15美元,Sonnet是一个"高级"级别的模型。
我问自己一个简单的操作性问题:那些便宜10倍的模型真的差10倍吗?还是我只是为品牌名称多花了钱?
我登录了OpenRouter,调出了价格表,花了一晚上的时间测试最受欢迎的“预算型”和“超预算型”模型。我的测试标准完全是实用的(没有编码基准,仅仅是日常的执行任务):
- 指令遵循:它能否在没有指导的情况下理解复杂的多步骤任务?
- 速度:延迟就是摩擦。如果需要30秒,我自己来做。
- 格式合规:如果我说“不要Markdown表格”(因为它们在Telegram中会出错),它会听吗?
- 态度测试:它是试图解决一个问题,还是立即放弃并说“我做不到”?
关于预算人工智能领域的残酷真相。
失败者:便宜意味着无用的地方
1. Gemini 2.5 Flash Lite($0.10 / $0.40)
- 承诺:超便宜(“超预算”)。
- 现实:你得到的正是你所支付的。它就像一个刚上班的实习生,毫无主动性。如果你要求一个总结,它会给你三个空洞的要点。如果任务稍微复杂一点,它就会举手投降。写出它所需的确切提示所需的心理能量抵消了任何经济上的节省。
2. MiniMax M2.5($0.30 / $1.20)
- 承诺:在编码基准测试中表现出色。
- 现实情况:完全无法遵循格式指示。我告诉它三次:"不要使用Markdown表格。"每次它都给我一个Markdown表格,毁坏了Telegram的用户界面。这证明了一个重要的观点:高基准分数(尤其是在编码方面)并不意味着在日常任务中具有高推理能力或遵循指示的能力。
3. Claude Haiku 4.5($1.00 / $5.00)
- 承诺:Anthropic的快速、轻量级模型。
- 现实情况:这个名字是准确的——它在思维上是轻量级的。它在没有不断的来回提示的情况下,难以完成任务。在这个价格范围(中高端)内,与真正的预算模型相比,投资回报率根本不值得,或者不如升级到Sonnet。
心碎:DeepSeek V3.2 ($0.25 / $0.38)
这个模型让我心碎。
- 优点: 这个价格的智能令人惊叹。它确实接近Sonnet 4.5的推理水平。它扩展了思维,提供了深刻的答案。
- 缺点: 它的速度令人痛苦地慢。在需要快速迭代的代理工作流程中,等待DeepSeek就像看油漆干一样。如果他们能修复推理速度,这将主导市场。但现在,延迟扼杀了它的实用性。
赢家:Grok 4.1 Fast ($0.20 / $0.50)
这是今晚最大的惊喜。
- 规格: 巨大的2M令牌上下文窗口,多模态(文本+图像),而且价格极其便宜。
- 现实:它名副其实地体现了“快速”的特点。更重要的是,它几乎不需要任何指导。给它一个方向,它就会全力以赴。如果它碰到障碍,它实际上会解释为什么并提出解决方案(这种特性通常只限于高级模型)。它在一次纠正后也会学习格式规则。
如果你需要一个用于高容量、中等复杂度任务的日常工具,Grok 4.1 快速目前是投资回报率无可争议的王者。
终极课程:你的时薪是多少?
这个实验让我对单位经济学有了一个严酷的教训。
当我使用 Sonnet 4.5 时,我发出一个提示,第一次尝试就能得到 95% 完美的结果。当我使用预算模型时,我必须澄清、重新提示、修正格式错误,并与机器人争论。
廉价人工智能的隐性成本是你的时间。如果你在API积分上节省了2.00美元,但浪费了15分钟与模型斗争,那么你实际上是在将自己的时间价值定为每小时8.00美元。作为首席执行官、开发者或创作者,你无法承受这样的数学。
我的新“代理路由”策略
我不再使用单一模型。我们正在实施基于任务复杂性的路由策略:
- 第一层(常规/高容量): Grok 4.1 快速。用于初步数据排序、基本摘要和快速聊天回复。
- 第二层(深度推理): Claude Sonnet 4.5。用于战略规划、复杂子代理编排和面向客户的草拟。
- 第三级(重型搬运工): 克劳德·奥普斯。保留给最高价值的分析任务。
停止关注API成本。开始关注价值实现时间。(注意:我正在排队等待Qwen3 Coder Next和Moonshot的Kimi K2.5进行下一轮测试。我会反馈结果。)水星科技解决方案:加速数字化。
Mercury Technology Solutions: Accelerate Digitality.


