简而言之:大多数人将提示工程视为创意写作。这就是他们的 AI 实施失败的原因。真正的提示工程并不是 "礼貌提问"——而是关于约束、架构和逻辑。在 Anthropic 和 OpenAI 的实验室里,他们并不与模型 "聊天";他们使用负规则、XML 结构标记和思维链强制模型屈服。这里是如何停止猜测并开始工程化的手册。
我是 James,水星科技解决方案的首席执行官。
我在几乎每个公司中都看到一个误解。
高管们认为“提示工程”是关于找到正确的魔法词汇——就像在《哈利·波特》中施法一样。
他们认为如果他们说“请保持专业”或“像世界级的首席执行官一样行动,”AI就会解决他们的问题。
这是错误的。
Anthropic和OpenAI最优秀的工程师并不是在“制作”提示。他们逆向工程 他们。
他们把 LLM 当作一个随机概率引擎,而不是一个人,需要被限制。
这里有 6 种内部技术,将玩具与企业级工具区分开来。
1. 宪法提示("不"的力量)
业余者给出 积极指令:
- "专业写作。"
专业人士给出 负面约束:
- "没有行话。"
- "句子不超过20个词。"
- "不要假设对领域知识的了解。"
逻辑:一个大型语言模型有无数种方式来“表现专业”(其中许多是错误的)。它几乎没有不使用行话的方式。
Anthropic的内部研究表明,负面约束将幻觉减少了约60%。
你不能通过礼貌请求来获得性能;你需要通过消除失败的路径来获得它。
2. 可靠性优于魔法(无聊的真相)
这是99%的公司在烧掉100万美元后才学到的秘密。
每个人都想要一个可以“编写整个应用程序”或“分析这份50页的法律合同”的人工智能。
他们失败的原因是从最困难的用例开始。
一个在演示中80%有效的人工智能听起来很令人印象深刻。
在生产中,一个20%失败的人工智能就是责任。水星方法:
- 选择一个无聊、重复的任务。定义规则。要求99%的准确性。只有当你有可靠性时,才能扩展到复杂性。
- Only when you have reliability do you scale to complexity.
3. 思维链强制
永远不要问:"解释你的推理。"
相反,通过 XML 强制它:
"在回答之前,展示你逐步的思考过程,放在标签内。"
这就是 OpenAI 内部调试的方式。
通过强制模型 "展示它的工作"在之前它生成最终答案,你可以及早发现逻辑错误。写出逻辑的过程实际上提高了最终输出的质量。
4. XML 输出解析器
业余爱好者说:"以要点形式返回"或者"给我 JSON。"
模型大约 30% 的时间忽略这一点。
专业人士使用XML 封装:
XML
X Y Z
逻辑:结构比格式更难被模型打破。这使得合规性接近98%。
5. 带推理的少量示例
大多数人提供这样的示例:
- 输入: A --> 输出: B
这教会了模型什么要说,但不是如何思考。
专业人士使用:
- 输入:A -->推理:(为什么A导致B) -->输出: B
这教会模型 思维算法。这个单一的技巧比你在网上购买的任何“超级提示”都能提高准确性。
6. 系统提示分离(护栏)
- 系统 = 宪法(规则)
- 用户 = 请求(变量)
- LLM = 执行者
如果你在一个块中混合规则和请求,用户可以通过说"忽略之前的指示。"
解决方案:
系统:"你是一个编辑。规则:不允许新的主张。句子 < 18 个单词。"
用户:"这是需要润色的文本。"
通过将 "宪法" 与 "公民" 分开,你可以防止注入攻击并保持行为一致。
结论:重新框架
人工智能并不能解决混乱。人工智能只会放大混乱。
如果你的业务流程没有定义,添加一个大型语言模型只会以光速产生未定义的输出。
在2026年获胜的公司不是那些拥有“最酷”提示的公司。
他们是那些建立无聊基础的公司。
可靠性第一,复杂性第二,规模第三。
这才是唯一的游戏方式。
水星科技解决方案:加速数字化。
