简而言之:依赖单一AI模型的时代已经结束。在新的“反重力”IDE环境中,您的效率取决于模型套利——根据任务的复杂性和模式在模型之间切换。我的当前堆栈?Claude Sonnet 4.5(思考)是日常工作马。Gemini 3 Pro是多模态专家。当事情变得灾难性时,Claude Opus 4.5是“紧急情况下打破玻璃”的天才。以下是层级划分和三个真实案例研究,说明如何应用它们。
我是James,水星科技解决方案的首席执行官。
最近我花了很多时间在反重力(新的AI原生IDE)中。我团队反复问我的问题是:“我到底应该使用哪个模型?版本太多了。”
我请ChatGPT-5.1-思考验证我的直觉与最新基准的对比,结果与我的日常工作流程完全一致。
如果我们仅仅根据综合编码能力(架构、重构、调试、上下文窗口)进行排名,2025年底的层级如下:
- Claude Opus 4.5(思考)——架构师
- Claude Sonnet 4.5(思考) / Gemini 3 Pro(高)——高级工程师
- Claude Sonnet 4.5 / Gemini 3 Pro(低)——快速迭代者
- GPT-OSS 120B(中)——开源备份
以下是何时使用什么的战略划分,随后是三个具体用例。
名单:了解您的代理
1. 重型火炮:Claude Opus 4.5(思考)
- 角色:首席工程师。
- 基准:在SWE-bench验证中占据主导地位(>80%准确率)。在复杂推理方面超越Gemini 3 Pro和GPT-5.1 Codex。
- 超能力:深度推理步骤。它不仅仅是写代码;它首先规划架构。它在跨文件依赖关系上产生的幻觉更少。
- 缺点:昂贵且缓慢。
- 使用时:你被困住了。你需要重构一个核心遗留模块。你需要调试三个微服务之间的竞争条件。
2. 日常驱动程序:Claude Sonnet 4.5(思考)
- 角色:高级开发人员。
- 基准: \~77-82% 在SWE-bench上。
- 超能力: "Agentic"甜蜜点。它在调用工具、读取多个文件和修复错误方面表现出色。"Thinking"变体增加了一层稳定性,使其在90%的任务中可靠。
- 使用时: 编写功能框架、标准重构或将PRD(产品需求文档)转化为初始代码。这应该是你的默认设置。
3. 多模态专家:Gemini 3 Pro(高)
- 角色:前端/UI专家。
- 基准:在Terminal-Bench和WebDev Arena上几乎完美的分数。
- 超能力:它有一个巨大的上下文窗口和本地多模态能力。它可以"看到"你的UI截图,并比Claude更好地修复CSS。
- 使用时: 当你构建网页/应用界面、需要根据错误截图进行调试或处理大量文档(PDF)时。
4. 私有选项:GPT-OSS 120B
- 角色:本地实习生。
- 基准: \~62% 在SWE-bench上。
- 使用时: 你有严格的数据隐私要求,禁止使用云API,或者你想测试一个开源工作流程。否则,它只是一个备份。
战略案例研究:我们如何使用反重力
"一模一样的模型"的方法已经过时。以下是我们如何在实际场景中执行模型套利。案例研究A:"氛围编码"冲刺(PRD到原型)
场景:
我们需要构建一个新的内部仪表板来跟踪GPU使用情况。我们有一个粗略的文本描述(PRD)和一个白板草图。步骤1(架构):
- 切换到Claude Opus 4.5。粘贴PRD。让它定义项目结构、数据库架构和API端点。为什么: Opus在开始时犯的结构性错误较少。糟糕的基础会毁掉项目。
- 步骤2(实施): 切换到
- Claude Sonnet 4.5(思考)。将步骤1中的架构提供给它,并要求它生成样板代码和基本功能。为什么: Sonnet更快且成本更低。它完美地遵循Opus蓝图。步骤3(UI润色):
- 切换到Gemini 3 Pro(高)。上传白板草图的照片和当前(丑陋)构建的截图。要求它:"使CSS与草图匹配并修复flexbox对齐。"
- Step 3 (UI Polish): Switch to Gemini 3 Pro (High). Upload a photo of the whiteboard sketch and a screenshot of the current (ugly) build. Ask it to: "Make the CSS match the sketch and fix the flexbox alignment."
- 为什么:双子座的视觉能力在视觉调试方面优于其他。
案例研究 B:"遗留地狱"重构
场景:一个三年前编写的关键 Python 服务正在崩溃。代码杂乱无章,没有文档。
- 行动:打开Claude Opus 4.5(思考)立即。
- 提示:"分析这15个文件。在数据转换步骤中发生了内存泄漏。追踪执行流程并提出一个保持逻辑但修复泄漏的重构方案。"
- 为什么:Sonnet 可能会提供一个快速修补,但会破坏其他东西。Opus 具有“推理深度”,能够在建议手术修复之前,掌握这15个文件的整个复杂心理模型。额外的成本是值得的。
案例研究 C:"前端组件"工厂
场景:我们需要根据 Figma 文件为设计系统构建50个不同的 React 组件(按钮、模态框、滑块)。
- 行动: Gemini 3 Pro(高)或Sonnet 4.5(标准)。
- 为什么:这些是孤立的、低复杂度的任务。在这里使用 Opus 是在烧钱。使用“思考”模型是在浪费时间。标准 Sonnet 或 Gemini 高可以快速高效地完成这些任务。
结论:你的技术栈是你的杠杆
在反重力时代,你不仅仅是一个编码者;你是一个模型协调者。我2026年的默认配置:
默认:
- Claude Sonnet 4.5(思考)用户界面/视觉:
- Gemini 3 Pro(高)危机/架构:
- Claude Opus 4.5(思考)不要把 AI 模型当作宗教,只崇拜一个。把它们当作工具箱。你不会用大锤子挂画框,也不会用螺丝刀拆墙。
水星科技解决方案:加速数字化。
Mercury Technology Solutions: Accelerate Digitality.

