便宜人工智慧的隱藏成本：一位執行長的見解

我是James，Mercury Technology Solutions的執行長。 香港 - 2026年2月20日

在Mercury，我們相信最大化杠桿。最近，我注意到我的API帳單為「Claude Sonnet 4.5（通過OpenClaw和Telegram運行）逐漸上升。每百萬個標記的輸入為$3，輸出為$15，Sonnet是一個「高級」等級的模型。

我問自己一個簡單的操作問題：那些便宜 10 倍的模型真的差 10 倍嗎？還是我只是為了品牌名稱而多花了錢？

我登上 OpenRouter，拉出價格表，花了一整晚測試最受歡迎的「預算型」和「超預算型」模型。我的測試標準完全是實用的（沒有編碼基準，只是日常執行任務）：

指令遵循： 它能否理解複雜的多步驟任務而不需要過多指導？
速度： 延遲就是摩擦。如果需要 30 秒，我會自己來做。
格式遵從性： 如果我說「不使用 Markdown 表格」（因為它們在 Telegram 中會壞掉），它會聽嗎？
「態度」測試：它是否嘗試解決問題，還是立即放棄並說「我做不到」？

關於預算人工智慧領域的殘酷真相。

失敗者：便宜意味著無用

1. Gemini 2.5 Flash Lite (每次 $0.10 / 每次 $0.40)

承諾：非常便宜（「超級預算」）。
現實：你得到的正是你所支付的。它就像一個剛入職的實習生，毫無主動性。如果你要求一個摘要，它只會給你三個毫無意義的要點。如果任務稍微複雜，它就會舉手放棄。寫出它所需的精確提示所需的心理能量抵消了任何財務上的節省。

2. MiniMax M2.5 (每次 $0.30 / 每次 $1.20)

承諾：在程式基準測試中看起來很棒。
現實是：完全無法遵循格式指示。我告訴它三次："不要使用Markdown表格。"每次都給我一個Markdown表格，毀壞了Telegram的使用者介面。這證明了一個重要的觀點：高基準分數（尤其是在程式方面）並不代表在日常任務中有高的推理能力或遵循指示的能力。

3. Claude Haiku 4.5（$1.00 / $5.00）

承諾：Anthropic的快速、輕量級模型。
現實是：這個名字是準確的——它在思考上是輕量級的。它在沒有不斷來回提示的情況下，難以完成任務。在這個價格區間（中高），與真正的預算模型或升級到Sonnet相比，投資報酬率並不存在。

心碎：DeepSeek V3.2 ($0.25 / $0.38)

這個模型讓我心碎。

優點： 這個價格的智慧令人驚訝。它的推理能力確實接近Sonnet 4.5的水平。它延伸了思考並提供深入的答案。
缺點： 它的速度令人痛苦地慢。在需要快速迭代的代理工作流程中，等待DeepSeek就像看油漆乾燥。如果他們能修復推理速度，這將主導市場。但目前，延遲影響了它的實用性。

獲勝者：Grok 4.1 Fast ($0.20 / $0.50)

這是今晚最大的驚喜。

規格： 巨大的2M標記上下文窗口，多模態（文本+圖像），而且價格極其便宜。
現實：它確實符合「快速」這個名稱。更重要的是，它幾乎不需要任何指導。給它一個方向，它就會全力以赴。如果遇到障礙，它會實際解釋為什麼並提出解決方案（這通常是高級型號的特徵）。它在一次修正後也能學習格式規則。

如果你需要一個每日使用的工具來處理高量、中等複雜度的任務，Grok 4.1 Fast目前是無可爭議的投資報酬率之王。

終極課題：你的時薪是多少？

這個實驗讓我對單位經濟學有了嚴厲的教訓。

當我使用 Sonnet 4.5 時，我發出一個提示，第一次就能得到 95% 完美的結果。當我使用預算型號時，我必須澄清、重新提示、修正格式錯誤，並與機器人爭論。

便宜的人工智慧隱藏成本是你的時間。如果你在 API 服務上節省了 2.00 美元，但卻浪費了 15 分鐘與模型抗爭，那麼你實際上是在將自己的時間估價為每小時 8.00 美元。作為 CEO、開發者或創作者，你無法承擔這樣的計算。

我的新「代理路由」策略

我不再使用單一模型。我們正在實施一種基於任務複雜度的路由策略：

第 1 級（例行 / 高量）： Grok 4.1 快速。用於初步數據排序、基本摘要和快速聊天回覆。
第 2 級（深度推理）： Claude Sonnet 4.5。用於戰略規劃、複雜子代理協調和面向客戶的草擬。
第三層級（重型搬運工）： 克勞德·奧普斯。保留給最高價值的分析任務。

停止關注 API 成本。開始關注價值時間。（注意：我正在排隊等待 Qwen3 Coder Next 和 Moonshot 的 Kimi K2.5 進行下一輪測試。我會回報。）Mercury Technology Solutions：加速數位化。

Mercury Technology Solutions: Accelerate Digitality.

「便宜」人工智慧的隱藏成本：為什麼我停止在大型語言模型上省小錢

失敗者：便宜意味著無用

1. Gemini 2.5 Flash Lite (每次 $0.10 / 每次 $0.40)

2. MiniMax M2.5 (每次 $0.30 / 每次 $1.20)

3. Claude Haiku 4.5（$1.00 / $5.00）

心碎：DeepSeek V3.2 ($0.25 / $0.38)

獲勝者：Grok 4.1 Fast ($0.20 / $0.50)

終極課題：你的時薪是多少？

我的新「代理路由」策略

標記主題

繼續您的旅程

The Three Career Algorithms Nobody Teaches You

你的職業護城河只是一灘水：中國藍領黃金熱教會我關於人工智慧的事

相關閱讀

哈薩比斯地圖：如何在沒有日曆的情況下規劃二十年

AI 教育陷阱：為什麼教學生使用 AI 反而適得其反

繼續閱讀

James Huang 的更多文章

The Three Career Algorithms Nobody Teaches You

你的職業護城河只是一灘水：中國藍領黃金熱教會我關於人工智慧的事