简而言之:思维链(CoT)推理模型通过增强AI将复杂问题分解为可管理步骤的能力,融合直觉和逻辑推理,正在重塑AI。DeepSeek独特的结果奖励训练方法通过优先考虑创造性发散和用户意图推测,相较于传统模型提供了明显的优势。
介绍
AI推理模型的世界正在迅速发展,随着GPT O3-mini的发布,我们见证了这些技术的激增。在探索了O1、DS和Gemini 2 Flash等各种模型后,我观察到DeepSeek的思维链(CoT)具有独特的特征,使其与众不同。与擅长精确执行命令的GPT不同,DeepSeek将问题分解为详细步骤并预测用户意图,常常使用诸如“也许”这样的推测性语言。
CoT模型的关键区别
- GPT O1:以精确执行复杂的高层提示而闻名,但缺乏创造力。
- DeepSeek (DS):在简单提示下表现出卓越的发散思维、创造力和表现力,尽管在复杂指令上可能会遇到困难。
理解这些区别
这些区别根植于不同的训练方法:DeepSeek采用结果奖励训练,而大多数其他大型语言模型(LLMs)使用过程奖励训练。让我们进一步探索这些奖励系统。
第一章:思维链训练——构建框架
AI的深度思考能力源于“耐心问题分解”与“直觉答案定位”的结合。通过鼓励AI像人类一样分解问题,直觉猜测转变为逻辑推理。
将CoT训练想象成通过识别边缘拼图块来开始拼图。它为AI提供了一个“推理地图”,指导其识别问题、分解步骤并连接逻辑,而不是急于得出结论。
示例:减少城市交通拥堵
- 没有CoT:仅仅建议建设更多地铁。
- 有CoT:
- 分析主要原因,例如,私家车过多。
- 提供需求侧解决方案,如公共交通。
- 提出供给侧解决方案,如优化交通信号灯。
- 建议长期规划,如工作与居住平衡政策。
第二章:过程奖励——每一步的小奖励
过程奖励让AI沉浸在人类思维过程中,专注于导致合理结果的步骤。这种方法类似于GPS导航,在错误转弯时重新计算路线,而不是在到达目的地时仅仅宣布错误路线。
- 核心技术包括:
- 步骤评分:独立评估每个推理步骤。
- 逻辑连贯性:确保逻辑链不被打断。
第三章:结果奖励——关注最终成功
结果奖励训练AI以人类可理解的方式达到正确答案,通过提供模型一个问题和结果,让其决定中间过程。
- 人性化设计:
- 更喜欢类比而非公式。
- 根据受众调整场景,为工程师和年轻学生使用不同的方法。
第四章:奖励融合——平衡过程与结果
理想的AI思维需要平衡“理性分解”和“情感表达”。过程奖励充当指挥,指导每一步,而结果奖励则是观众的掌声,影响情感基调。
示例:向孩子解释为什么树叶会掉落
- 纯过程AI:提供详细的技术解释。
- 纯结果AI:提供简单、富有想象力的答案。
- 平衡AI:
- 提供科学解释和引人入胜的叙述。
过程奖励确保可信度,而结果奖励增加同理心,创造出一个将冷冰冰的代码转变为温暖、可关联互动的平衡AI。
随着AI学习动态平衡这些方法,它转变为一个更像人类的助手,能够进行严谨分析和富有同情心的沟通。

