我是James,水星科技解決方案的執行長。 香港 - 2026年2月20日
在水星,我們相信最大化杠桿。最近,我注意到我的API帳單為「Claude Sonnet 4.5(通過OpenClaw和Telegram運行)逐漸上升。每百萬個標記的輸入為$3,輸出為$15,Sonnet是一個「高級」等級的模型。
我問自己一個簡單的操作問題:那些便宜 10 倍的模型真的差 10 倍嗎?還是我只是為了品牌名稱而多花了錢?
我登上 OpenRouter,拉出價格表,花了一整晚測試最受歡迎的「預算型」和「超預算型」模型。我的測試標準完全是實用的(沒有編碼基準,只是日常執行任務):
- 指令遵循: 它能否理解複雜的多步驟任務而不需要過多指導?
- 速度: 延遲就是摩擦。如果需要 30 秒,我會自己來做。
- 格式遵從性: 如果我說「不使用 Markdown 表格」(因為它們在 Telegram 中會壞掉),它會聽嗎?
- 「態度」測試:它是否嘗試解決問題,還是立即放棄並說「我做不到」?
關於預算人工智慧領域的殘酷真相。
失敗者:便宜意味著無用
1. Gemini 2.5 Flash Lite (每次 $0.10 / 每次 $0.40)
- 承諾:非常便宜(「超級預算」)。
- 現實:你得到的正是你所支付的。它就像一個剛入職的實習生,毫無主動性。如果你要求一個摘要,它只會給你三個毫無意義的要點。如果任務稍微複雜,它就會舉手放棄。寫出它所需的精確提示所需的心理能量抵消了任何財務上的節省。
2. MiniMax M2.5 (每次 $0.30 / 每次 $1.20)
- 承諾:在程式基準測試中看起來很棒。
- 現實是:完全無法遵循格式指示。我告訴它三次:"不要使用Markdown表格。"每次都給我一個Markdown表格,毀壞了Telegram的使用者介面。這證明了一個重要的觀點:高基準分數(尤其是在程式方面)並不代表在日常任務中有高的推理能力或遵循指示的能力。
3. Claude Haiku 4.5($1.00 / $5.00)
- 承諾:Anthropic的快速、輕量級模型。
- 現實是:這個名字是準確的——它在思考上是輕量級的。它在沒有不斷來回提示的情況下,難以完成任務。在這個價格區間(中高),與真正的預算模型或升級到Sonnet相比,投資報酬率並不存在。
心碎:DeepSeek V3.2 ($0.25 / $0.38)
這個模型讓我心碎。
- 優點: 這個價格的智慧令人驚訝。它的推理能力確實接近Sonnet 4.5的水平。它延伸了思考並提供深入的答案。
- 缺點: 它的速度令人痛苦地慢。在需要快速迭代的代理工作流程中,等待DeepSeek就像看油漆乾燥。如果他們能修復推理速度,這將主導市場。但目前,延遲影響了它的實用性。
獲勝者:Grok 4.1 Fast ($0.20 / $0.50)
這是今晚最大的驚喜。
- 規格: 巨大的2M標記上下文窗口,多模態(文本+圖像),而且價格極其便宜。
- 現實:它確實符合「快速」這個名稱。更重要的是,它幾乎不需要任何指導。給它一個方向,它就會全力以赴。如果遇到障礙,它會實際解釋為什麼並提出解決方案(這通常是高級型號的特徵)。它在一次修正後也能學習格式規則。
如果你需要一個每日使用的工具來處理高量、中等複雜度的任務,Grok 4.1 Fast目前是無可爭議的投資報酬率之王。
終極課題:你的時薪是多少?
這個實驗讓我對單位經濟學有了嚴厲的教訓。
當我使用 Sonnet 4.5 時,我發出一個提示,第一次就能得到 95% 完美的結果。當我使用預算型號時,我必須澄清、重新提示、修正格式錯誤,並與機器人爭論。
便宜的人工智慧隱藏成本是你的時間。如果你在 API 服務上節省了 2.00 美元,但卻浪費了 15 分鐘與模型抗爭,那麼你實際上是在將自己的時間估價為每小時 8.00 美元。作為 CEO、開發者或創作者,你無法承擔這樣的計算。
我的新「代理路由」策略
我不再使用單一模型。我們正在實施一種基於任務複雜度的路由策略:
- 第 1 級(例行 / 高量): Grok 4.1 快速。用於初步數據排序、基本摘要和快速聊天回覆。
- 第 2 級(深度推理): Claude Sonnet 4.5。用於戰略規劃、複雜子代理協調和面向客戶的草擬。
- 第三層級(重型搬運工): 克勞德·奧普斯。保留給最高價值的分析任務。
停止關注 API 成本。開始關注價值時間。(注意:我正在排隊等待 Qwen3 Coder Next 和 Moonshot 的 Kimi K2.5 進行下一輪測試。我會回報。)水星科技解決方案:加速數位化。
Mercury Technology Solutions: Accelerate Digitality.


