便宜AI的隐性成本：一位CEO的见解

我是詹姆斯，Mercury Technology Solutions的CEO。 香港 - 2026年2月20日

在Mercury，我们相信最大化杠杆。最近，我注意到我的API账单在逐渐增加，Claude Sonnet 4.5（通过OpenClaw和Telegram运行）每百万个令牌的输入费用为3美元，输出费用为15美元，Sonnet是一个"高级"级别的模型。

我问自己一个简单的操作性问题：那些便宜10倍的模型真的差10倍吗？还是我只是为品牌名称多花了钱？

我登录了OpenRouter，调出了价格表，花了一晚上的时间测试最受欢迎的“预算型”和“超预算型”模型。我的测试标准完全是实用的（没有编码基准，仅仅是日常的执行任务）：

指令遵循：它能否在没有指导的情况下理解复杂的多步骤任务？
速度：延迟就是摩擦。如果需要30秒，我自己来做。
格式合规：如果我说“不要Markdown表格”（因为它们在Telegram中会出错），它会听吗？
态度测试：它是试图解决一个问题，还是立即放弃并说“我做不到”？

关于预算人工智能领域的残酷真相。

失败者：便宜意味着无用的地方

1. Gemini 2.5 Flash Lite（$0.10 / $0.40）

承诺：超便宜（“超预算”）。
现实：你得到的正是你所支付的。它就像一个刚上班的实习生，毫无主动性。如果你要求一个总结，它会给你三个空洞的要点。如果任务稍微复杂一点，它就会举手投降。写出它所需的确切提示所需的心理能量抵消了任何经济上的节省。

2. MiniMax M2.5（$0.30 / $1.20）

承诺：在编码基准测试中表现出色。
现实情况：完全无法遵循格式指示。我告诉它三次："不要使用Markdown表格。"每次它都给我一个Markdown表格，毁坏了Telegram的用户界面。这证明了一个重要的观点：高基准分数（尤其是在编码方面）并不意味着在日常任务中具有高推理能力或遵循指示的能力。

3. Claude Haiku 4.5（$1.00 / $5.00）

承诺：Anthropic的快速、轻量级模型。
现实情况：这个名字是准确的——它在思维上是轻量级的。它在没有不断的来回提示的情况下，难以完成任务。在这个价格范围（中高端）内，与真正的预算模型相比，投资回报率根本不值得，或者不如升级到Sonnet。

心碎：DeepSeek V3.2 ($0.25 / $0.38)

这个模型让我心碎。

优点： 这个价格的智能令人惊叹。它确实接近Sonnet 4.5的推理水平。它扩展了思维，提供了深刻的答案。
缺点： 它的速度令人痛苦地慢。在需要快速迭代的代理工作流程中，等待DeepSeek就像看油漆干一样。如果他们能修复推理速度，这将主导市场。但现在，延迟扼杀了它的实用性。

赢家：Grok 4.1 Fast ($0.20 / $0.50)

这是今晚最大的惊喜。

规格： 巨大的2M令牌上下文窗口，多模态（文本+图像），而且价格极其便宜。
现实：它名副其实地体现了“快速”的特点。更重要的是，它几乎不需要任何指导。给它一个方向，它就会全力以赴。如果它碰到障碍，它实际上会解释为什么并提出解决方案（这种特性通常只限于高级模型）。它在一次纠正后也会学习格式规则。

如果你需要一个用于高容量、中等复杂度任务的日常工具，Grok 4.1 快速目前是投资回报率无可争议的王者。

终极课程：你的时薪是多少？

这个实验让我对单位经济学有了一个严酷的教训。

当我使用 Sonnet 4.5 时，我发出一个提示，第一次尝试就能得到 95% 完美的结果。当我使用预算模型时，我必须澄清、重新提示、修正格式错误，并与机器人争论。

廉价人工智能的隐性成本是你的时间。如果你在API积分上节省了2.00美元，但浪费了15分钟与模型斗争，那么你实际上是在将自己的时间价值定为每小时8.00美元。作为首席执行官、开发者或创作者，你无法承受这样的数学。

我的新“代理路由”策略

我不再使用单一模型。我们正在实施基于任务复杂性的路由策略：

第一层（常规/高容量）： Grok 4.1 快速。用于初步数据排序、基本摘要和快速聊天回复。
第二层（深度推理）： Claude Sonnet 4.5。用于战略规划、复杂子代理编排和面向客户的草拟。
第三级（重型搬运工）： 克劳德·奥普斯。保留给最高价值的分析任务。

停止关注API成本。开始关注价值实现时间。（注意：我正在排队等待Qwen3 Coder Next和Moonshot的Kimi K2.5进行下一轮测试。我会反馈结果。）Mercury Technology Solutions：加速数字化。

Mercury Technology Solutions: Accelerate Digitality.

便宜"AI"的隐性成本：为什么我停止在LLMs上省小钱

失败者：便宜意味着无用的地方

1. Gemini 2.5 Flash Lite（$0.10 / $0.40）

2. MiniMax M2.5（$0.30 / $1.20）

3. Claude Haiku 4.5（$1.00 / $5.00）

心碎：DeepSeek V3.2 ($0.25 / $0.38)

赢家：Grok 4.1 Fast ($0.20 / $0.50)

终极课程：你的时薪是多少？

我的新“代理路由”策略

标记主题

继续您的旅程

The Three Career Algorithms Nobody Teaches You

你的职业护城河只是一个水坑：从中国蓝领淘金潮中我学到的关于人工智能的知识

相关阅读

哈萨比斯地图：如何在没有日历的情况下规划二十年

人工智能教育陷阱：为什么教学生使用人工智能适得其反

继续阅读

James Huang 的更多文章

The Three Career Algorithms Nobody Teaches You

你的职业护城河只是一个水坑：从中国蓝领淘金潮中我学到的关于人工智能的知识