4 min remaining
0%
AI 内容手册

停止 "创作" 提示。开始反向工程它们

摆脱 AI 提示创作中的猜测。发现 Anthropic 和 OpenAI 专家使用的工程技术,以迫使 AI 模型屈服,从而获得更好的结果。

4 min read
Progress tracked
4 分钟阅读

简而言之:大多数人将提示工程视为创意写作。这就是他们的 AI 实施失败的原因。真正的提示工程并不是 "礼貌提问"——而是关于约束、架构和逻辑。在 Anthropic 和 OpenAI 的实验室里,他们并不与模型 "聊天";他们使用负规则、XML 结构标记和思维链强制模型屈服。这里是如何停止猜测并开始工程化的手册。

我是 James,水星科技解决方案的首席执行官。

我在几乎每个公司中都看到一个误解。

高管们认为“提示工程”是关于找到正确的魔法词汇——就像在《哈利·波特》中施法一样。

他们认为如果他们说“请保持专业”“像世界级的首席执行官一样行动,”AI就会解决他们的问题。

这是错误的。

Anthropic和OpenAI最优秀的工程师并不是在“制作”提示。他们逆向工程 他们。

他们把 LLM 当作一个随机概率引擎,而不是一个人,需要被限制。

这里有 6 种内部技术,将玩具与企业级工具区分开来。

1. 宪法提示("不"的力量)

业余者给出 积极指令

  • "专业写作。"

专业人士给出 负面约束:

  • "没有行话。"
  • "句子不超过20个词。"
  • "不要假设对领域知识的了解。"

逻辑:一个大型语言模型有无数种方式来“表现专业”(其中许多是错误的)。它几乎没有不使用行话的方式。

Anthropic的内部研究表明,负面约束将幻觉减少了约60%。

你不能通过礼貌请求来获得性能;你需要通过消除失败的路径来获得它。

2. 可靠性优于魔法(无聊的真相)

这是99%的公司在烧掉100万美元后才学到的秘密。

每个人都想要一个可以“编写整个应用程序”或“分析这份50页的法律合同”的人工智能。

他们失败的原因是从最困难的用例开始。

一个在演示中80%有效的人工智能听起来很令人印象深刻。

在生产中,一个20%失败的人工智能就是责任。水星方法:

  • 选择一个无聊、重复的任务。定义规则。要求99%的准确性。只有当你有可靠性时,才能扩展到复杂性。
  • Only when you have reliability do you scale to complexity.

3. 思维链强制

永远不要问:"解释你的推理。"

相反,通过 XML 强制它

"在回答之前,展示你逐步的思考过程,放在标签内。"

这就是 OpenAI 内部调试的方式。

通过强制模型 "展示它的工作"在之前它生成最终答案,你可以及早发现逻辑错误。写出逻辑的过程实际上提高了最终输出的质量。

4. XML 输出解析器

业余爱好者说:"以要点形式返回"或者"给我 JSON。"

模型大约 30% 的时间忽略这一点。

专业人士使用XML 封装:

XML

X Y Z

逻辑:结构比格式更难被模型打破。这使得合规性接近98%。

5. 带推理的少量示例

大多数人提供这样的示例:

  • 输入: A --> 输出: B

这教会了模型什么要说,但不是如何思考。

专业人士使用:

  • 输入:A -->推理:(为什么A导致B) -->输出: B

这教会模型 思维算法。这个单一的技巧比你在网上购买的任何“超级提示”都能提高准确性。

6. 系统提示分离(护栏)

  • 系统 = 宪法(规则)
  • 用户 = 请求(变量)
  • LLM = 执行者

如果你在一个块中混合规则和请求,用户可以通过说"忽略之前的指示。"

解决方案:

系统:"你是一个编辑。规则:不允许新的主张。句子 < 18 个单词。"

用户:"这是需要润色的文本。"

通过将 "宪法" 与 "公民" 分开,你可以防止注入攻击并保持行为一致。

结论:重新框架

人工智能并不能解决混乱。人工智能只会放大混乱。

如果你的业务流程没有定义,添加一个大型语言模型只会以光速产生未定义的输出。

在2026年获胜的公司不是那些拥有“最酷”提示的公司。

他们是那些建立无聊基础的公司。

可靠性第一,复杂性第二,规模第三。

这才是唯一的游戏方式。

水星科技解决方案:加速数字化。