こちらは、マーキュリーテクノロジーソリューションのCEO、ジェームズです。 香港 - 2026年2月20日
マーキュリーでは、レバレッジを最大化することを信じています。最近、私のAPI請求書が「Claude Sonnet 4.5(OpenClawとTelegramを経由して実行中)」が増加していることに気付きました。1百万トークンあたり$3の入力/$15の出力で、Sonnetは「プレミアム」ティアモデルです。
私は自分にシンプルな運用上の質問をしました:10倍安いモデルは本当に10倍悪いのでしょうか?それとも私はブランド名に対して過剰に支払っているだけなのでしょうか?
私はOpenRouterにアクセスし、価格表を引き出し、最も人気のある「バジェット」と「ウルトラバジェット」モデルを一晩かけてテストしました。私のテスト基準は完全に実用的でした(コーディングベンチマークではなく、日常の業務タスクのみ):
- 指示の遵守: 複雑な多段階のタスクを手取り足取りなしで理解できますか?
- 速度: レイテンシーは摩擦です。30秒かかるなら、自分でやります。
- フォーマット遵守: 「Markdownテーブルは不要」と言った場合(Telegramで壊れるため)、それを聞いてくれますか?
- 「態度」テスト:問題を解決しようとしますか、それともすぐに諦めて「できません」と言いますか?
予算AIの現実についての厳しい真実です。
敗者たち:安いことが無駄を意味する場所
1. ジェミニ 2.5 フラッシュライト ($0.10 / $0.40)
- 約束:非常に安価(「ウルトラバジェット」)。
- 現実:支払った分だけのものが得られます。初日の日雇いのように振る舞います。自発性はゼロです。要約を求めると、何もない三つの箇条書きを提供します。タスクが少し複雑になると、手を挙げて諦めます。必要な正確なプロンプトを書くために必要な精神的エネルギーは、金銭的な節約を打ち消します。
2. ミニマックス M2.5 ($0.30 / $1.20)
- 約束:コーディングベンチマークでは素晴らしい結果を出します。
- 現実:フォーマットの指示に従うことが完全にできませんでした。私は三回言いました:"Markdownテーブルを使用しないでください。"毎回Markdownテーブルを作成し、TelegramのUIを台無しにしました。これは重要なポイントを証明しています:高いベンチマークスコア(特にコーディングにおいて)は、日常のタスクにおける高い推論能力や指示の遵守にはつながらないということです。
3. Claude Haiku 4.5 ($1.00 / $5.00)
- 約束:Anthropicの高速で軽量なモデル。
- 現実:名前は正確です—脳において軽量です。常に往復のプロンプトなしではタスクを完了するのに苦労します。この価格帯(中高)では、真の予算モデルやSonnetにステップアップすることと比較して、投資対効果はありません。
ハートブレイク: DeepSeek V3.2 ($0.25 / $0.38)
このモデルは私の心を打ち砕きました。
- 良い点: 価格に対して驚くべき知性があります。実際にSonnet 4.5レベルの推論に近づいています。思考を広げ、深い回答を提供します。
- 悪い点: 非常に遅いです。迅速な反復が必要なエージェントワークフローでは、DeepSeekを待つのはペンキが乾くのを見ているようです。もし推論速度が改善されれば、これは市場を支配するでしょう。しかし今のところ、遅延が有用性を損なっています。
勝者: Grok 4.1 Fast ($0.20 / $0.50)
これは今夜の最大の驚きでした。
- 仕様: 大規模な2Mトークンコンテキストウィンドウ、マルチモーダル(テキスト+画像)、そして非常に安価です。
- 現実:それは「速い」という名前にふさわしい性能を持っています。もっと重要なのは、非常に少ない手助けで済むことです。方向を与えれば、それに従って動きます。壁にぶつかると、実際にその理由を説明し、回避策を提案します(これは通常プレミアムモデルに見られる特性です)。また、一度の修正でフォーマットルールを学習します。高ボリュームで中程度の複雑さのタスクに日常的に使用するドライバーが必要な場合、Grok 4.1 Fast
は現在、ROIの王者です。究極の教訓:あなたの時給はいくらですか?この実験は、ユニットエコノミクスについて厳しい教訓を私に教えてくれました。
Sonnet 4.5を使用すると、プロンプトを送信して最初の試行で95%の完璧な結果を得ることができます。予算モデルを使用すると、明確にし、再プロンプトし、フォーマットエラーを修正し、ボットと議論しなければなりません。
This experiment taught me a harsh lesson about unit economics.
When I use Sonnet 4.5, I fire off a prompt and get a 95% perfect result on the first try. When I use a Budget model, I have to clarify, re-prompt, fix formatting errors, and argue with the bot.
安価なAIの隠れたコストはあなたの時間です。APIクレジットで$2.00節約しても、モデルと格闘するのに15分を無駄にするなら、あなたの時間を1時間あたり$8.00と見なしていることになります。CEO、開発者、クリエイターとして、その計算は許容できません。
私の新しい「エージェントルーティング」戦略
私はもはや単一のモデルを使用していません。タスクの複雑さに基づいたルーティング戦略を実装しています:
- Tier 1(ルーチン / 高ボリューム): Grok 4.1 ファスト。初期データの整理、基本的な要約、迅速なチャット返信に使用されます。
- Tier 2(深い推論): Claude Sonnet 4.5。戦略的計画、複雑なサブエージェントのオーケストレーション、クライアント向けのドラフト作成に使用されます。
- Tier 3 (ヘビーリフター): クロード・オーパス。. 最も価値の高い分析タスクのために予約されています。
APIコストを見るのをやめて、価値までの時間を見始めましょう。(注: 次のテストのためにQwen3 Coder NextとMoonshotのキミ K2.5をキューに入れています。後ほど報告します。)
マーキュリー・テクノロジー・ソリューションズ: デジタリティを加速させる。


