4 min remaining
0%
人工智能与机器学习

便宜"AI"的隐性成本:为什么我停止在LLMs上省小钱

探索便宜AI模型的隐性成本及其对生产力的影响。一位CEO分享了测试各种LLMs的见解。

4 min read
Progress tracked
4 分钟阅读
AI Generated Cover for: The Hidden Cost of "Cheap" AI: Why I Stopped Being Penny-Wise with LLMs

AI Generated Cover for: The Hidden Cost of "Cheap" AI: Why I Stopped Being Penny-Wise with LLMs

我是詹姆斯,水星科技解决方案的CEO。 香港 - 2026年2月20日

在水星,我们相信最大化杠杆。最近,我注意到我的API账单在逐渐增加,Claude Sonnet 4.5(通过OpenClaw和Telegram运行)每百万个令牌的输入费用为3美元,输出费用为15美元,Sonnet是一个"高级"级别的模型。

我问自己一个简单的操作性问题:那些便宜10倍的模型真的差10倍吗?还是我只是为品牌名称多花了钱?

我登录了OpenRouter,调出了价格表,花了一晚上的时间测试最受欢迎的“预算型”和“超预算型”模型。我的测试标准完全是实用的(没有编码基准,仅仅是日常的执行任务):

  1. 指令遵循:它能否在没有指导的情况下理解复杂的多步骤任务?
  2. 速度:延迟就是摩擦。如果需要30秒,我自己来做。
  3. 格式合规:如果我说“不要Markdown表格”(因为它们在Telegram中会出错),它会听吗?
  4. 态度测试:它是试图解决一个问题,还是立即放弃并说“我做不到”?

关于预算人工智能领域的残酷真相。

失败者:便宜意味着无用的地方

1. Gemini 2.5 Flash Lite($0.10 / $0.40)

  • 承诺:超便宜(“超预算”)。
  • 现实:你得到的正是你所支付的。它就像一个刚上班的实习生,毫无主动性。如果你要求一个总结,它会给你三个空洞的要点。如果任务稍微复杂一点,它就会举手投降。写出它所需的确切提示所需的心理能量抵消了任何经济上的节省。

2. MiniMax M2.5($0.30 / $1.20)

  • 承诺:在编码基准测试中表现出色。
  • 现实情况:完全无法遵循格式指示。我告诉它三次:"不要使用Markdown表格。"每次它都给我一个Markdown表格,毁坏了Telegram的用户界面。这证明了一个重要的观点:高基准分数(尤其是在编码方面)并不意味着在日常任务中具有高推理能力或遵循指示的能力。

3. Claude Haiku 4.5($1.00 / $5.00)

  • 承诺:Anthropic的快速、轻量级模型。
  • 现实情况:这个名字是准确的——它在思维上是轻量级的。它在没有不断的来回提示的情况下,难以完成任务。在这个价格范围(中高端)内,与真正的预算模型相比,投资回报率根本不值得,或者不如升级到Sonnet。

心碎:DeepSeek V3.2 ($0.25 / $0.38)

这个模型让我心碎。

  • 优点: 这个价格的智能令人惊叹。它确实接近Sonnet 4.5的推理水平。它扩展了思维,提供了深刻的答案。
  • 缺点: 它的速度令人痛苦地慢。在需要快速迭代的代理工作流程中,等待DeepSeek就像看油漆干一样。如果他们能修复推理速度,这将主导市场。但现在,延迟扼杀了它的实用性。

赢家:Grok 4.1 Fast ($0.20 / $0.50)

这是今晚最大的惊喜。

  • 规格: 巨大的2M令牌上下文窗口,多模态(文本+图像),而且价格极其便宜。
  • 现实:它名副其实地体现了“快速”的特点。更重要的是,它几乎不需要任何指导。给它一个方向,它就会全力以赴。如果它碰到障碍,它实际上会解释为什么并提出解决方案(这种特性通常只限于高级模型)。它在一次纠正后也会学习格式规则。

如果你需要一个用于高容量、中等复杂度任务的日常工具,Grok 4.1 快速目前是投资回报率无可争议的王者。

终极课程:你的时薪是多少?

这个实验让我对单位经济学有了一个严酷的教训。

当我使用 Sonnet 4.5 时,我发出一个提示,第一次尝试就能得到 95% 完美的结果。当我使用预算模型时,我必须澄清、重新提示、修正格式错误,并与机器人争论。

廉价人工智能的隐性成本是你的时间。如果你在API积分上节省了2.00美元,但浪费了15分钟与模型斗争,那么你实际上是在将自己的时间价值定为每小时8.00美元。作为首席执行官、开发者或创作者,你无法承受这样的数学。

我的新“代理路由”策略

我不再使用单一模型。我们正在实施基于任务复杂性的路由策略:

  • 第一层(常规/高容量): Grok 4.1 快速。用于初步数据排序、基本摘要和快速聊天回复。
  • 第二层(深度推理): Claude Sonnet 4.5。用于战略规划、复杂子代理编排和面向客户的草拟。
  • 第三级(重型搬运工): 克劳德·奥普斯。保留给最高价值的分析任务。

停止关注API成本。开始关注价值实现时间。(注意:我正在排队等待Qwen3 Coder Next和Moonshot的Kimi K2.5进行下一轮测试。我会反馈结果。)水星科技解决方案:加速数字化。

Mercury Technology Solutions: Accelerate Digitality.