DeepSeekR1-Zero：顿悟时刻和GRPO的真相揭秘

每个人都有过那种“顿悟时刻”，突然一闪念间想通了一些事情，感觉整个世界都变得清晰了一样。

这种感觉不仅仅存在于我们的日常生活中，甚至在复杂的人工智能训练中也有类似的时刻。

想象一下，一个基于深度学习的模型，突然在某个瞬间变得聪明起来，能够解决之前怎么也搞不定的问题。

今天，我就带大家走进DeepSeek R1-Zero的研究世界，看看其中隐藏的顿悟时刻和GRPO的真相。

基础模型的领先表现：超越常规训练的顿悟时刻

在初期的训练阶段，DeepSeek团队发现了一个令人震惊的事实——他们的基础模型在进行强化学习之前就展现出了“顿悟时刻”。

这是什么意思呢？

简单说就是这套模型在强化学习微调之前，就表现得异常聪明，像是突然开窍了一样。

举个例子吧，就像你在学习骑自行车，一开始一直摔倒，突然有一天你找到了平衡感，不再需要任何辅助就能骑稳。

这就是所谓的顿悟时刻。

对于DeepSeek-V3-Base这个模型来说，它在面对一些预训练任务时，表现出了超出预期的能力。

这不禁让研究团队怀疑：难道是基础模型本身就有很强的潜力，强化学习只是“锦上添花”？

他们进一步发现，另一个名为Qwen2.5的基础模型，即使没有使用预训练时常用的提示模板，其推理能力也强得不可思议。

其平均benchmark分数提升了约60%！

这就像是一个学生在没有上任何辅导班的情况下，考试分数提高了一倍，不是因为学了更多课，而是因为他的学习能力本身特别强。

这是否说明，模型的预训练阶段已经植入了很多隐藏的“偏见”，如自我反思能力和数学解题技巧等？

强大的基础模型可能在强化学习过程中更容易表现出这些能力。

GRPO算法的隐藏缺陷：长度和难度偏见问题

说到这里，大家可能会想，既然基础模型这么厉害，那强化学习环节是否真的不可或缺呢？

其实，在强化学习环节，研究团队揭示了一个重要的缺陷，就是他们常用的GRPO算法存在偏见。

我们来聊聊GRPO的具体问题。

有一天，研究团队正在分析模型生成的答案，发现有些答案特别长，而另一些则特别短。

仔细研究后他们发现，GRPO算法的长度归一化功能对短且正确的答案有偏爱，而对长且错误的答案更宽容。

这就意味着，系统更倾向于生成简短的正确答案，这被称为“长度偏见”。

不仅如此，GRPO的标准差归一化功能还对过于简单或过分复杂的问题表现出偏爱，这忽略了难度适中的问题，形成了所谓的“难度偏见”。

这些偏见让研究团队对GRPO算法的公平性产生了怀疑。

更有意思的是，即使是理论上无偏的PPO（Proximal Policy Optimization）算法在开源实现时，通过计算某些值也引入了“长度偏见”。

这就相当于，你以为某种方法是中立的，然而在实际应用中却因为一些细节偏离了原意。

简单而有效的 R1-Zero 训练公式：突破性成果

了解了这些问题后，研究团队决定采取行动。

他们设计了一种改进方法，被称为Dr. GRPO，只需要两行代码就能解决GRPO的偏见问题。

这听起来可能有点不可思议，但确实有效。

Dr. GRPO通过移除长度归一化和标准差归一化，来防止模型生成越来越长的错误答案，从而提高了计算效率。

这种简单的修改不仅使得GRPO变得无偏，还能显著提升模型的表现。

基于这些研究发现，团队提出了一个简单的R1-Zero训练配方，完全抛弃了花哨的技巧，仅依赖于无偏的Dr. GRPO优化器。

他们在训练7B大小的模型上花费了27小时，结果该模型在AIME 2024的挑战中怒刷43.3分，刷新了SOTA（state-of-the-art，技术前沿）记录。

这相当于一个学生只复习了三天，却在一场重要的考试中取得了非凡的成绩。

开源实现中的陷阱：PPO算法的意外偏见

这种研究不仅让我们重新思考了基础模型和强化学习的关系，还揭示了开源实现中的潜在问题。

我们之前以为PPO算法是无偏的，但实际上，几乎所有开源实现都通过计算一些特定的值引入了长度偏见。

这给了我们一个启示，不要盲目相信任何方法都是完美的，细节往往隐藏在不起眼的地方。

进行R1-Zero训练时，团队细致入微地优化了每一个环节，确保减少偏见的产生，并且使模型在多种任务中表现良好。

比如，他们在基础代数问题上的RL训练，竟然提升了模型在奥赛级别问题上的推理能力，这真是令人惊喜的意外收获。

结尾，DeepSeek团队的研究不仅让我们更好地理解了R1-Zero类训练背后的机制，还提出了有效的改进方案。

对于那些想深入研究和实践这类训练方法的人们来说，这真的是一份宝贵的资源。

这项研究带给我们的启发是，无论你是对人工智能领域感兴趣的研究者，还是对科技前沿充满好奇的普通读者，这些背后的真实故事和小小的顿悟都会给你新的视角和新的思考。

下一次，当你在面对复杂问题时，也许会想到：也许，顿悟时刻离你并不远，只需要一点耐心和多看看细节。

空闲时推荐大家去看看论文和代码，相信你会有更多发现，也许会有属于你的“顿悟时刻”。

玩酷网

DeepSeekR1-Zero：顿悟时刻和GRPO的真相揭秘

科技未来派