DeepSeekR2或将到来！清华合作论文揭示奖励模型推理时扩展新技术

大型语言模型（LLM）的进步令人瞩目，但如何进一步提升它们的推理能力仍然是一个关键挑战。

强化学习（RL）已成为LLM后训练阶段的重要方法，获取准确的奖励信号却是一个难题。

DeepSeek与清华大学的研究者合作发表了一篇论文，探索通过增加推理计算资源来提升奖励建模能力的新途径，为LLM推理能力的提升带来了新的曙光。

强化学习在提升LLM推理能力方面展现了巨大潜力，但如何获得准确的奖励信号，尤其是在多样化的领域中，仍然是一个挑战。

这篇论文的核心在于探究奖励模型（RM）在推理阶段的可扩展性，即能否通过增加推理计算资源来提升RM的性能。

研究者发现，点式生成式奖励建模（GRM）具备推理阶段可扩展的潜力，并提出了一种名为自我原则点评调优（SPCT）的学习方法。

SPCT方法的核心在于训练GRM生成具备可扩展奖励能力的行为。

它包括两个阶段：拒绝式微调和基于规则的在线强化学习。

拒绝式微调阶段旨在使GRM适应不同的输入类型，并生成正确格式的原则和点评内容。

研究者巧妙地采用了点式GRM，使其能够灵活处理不同数量的回答。

为了提高预测奖励的准确性，他们引入了提示式采样技术。

在SPCT的第二阶段，基于规则的在线强化学习被用于进一步微调GRM。

通过在线优化生成的原则和点评内容，GRM能够更准确地区分最优回答，从而提升推理阶段的可扩展性。

这种方法的优势在于能够无缝对接任何偏好数据集和标注的LLM回答，具有很强的通用性。

这项研究的一个重要创新点在于将“原则”从理解过程解耦，转变为奖励生成的一部分。

这意味着原则不再是预先定义的，而是根据输入问题和回答动态生成的。

这种转变使得奖励生成过程更具适应性，也为推理阶段的可扩展性提供了关键支撑。

通过对GRM进行后训练，生成的原则和点评内容的质量和细致程度都能得到进一步提升。

为了进一步提升DeepSeek-GRM的性能，研究团队探索了推理时扩展策略。

他们提出了通过生成奖励进行投票的方法，通过多次采样并整合奖励结果，提升最终奖励的质量和细腻度。

为了避免采样过程中出现偏差，研究人员还引入了元奖励模型（meta RM）来引导投票过程，过滤掉低质量的样本。

DeepSeek和清华的研究者基于Gemma-2-27B，经过SPCT训练，提出了DeepSeek-GRM-27B模型。

实验结果表明，DeepSeek-GRM-27B在多个综合RM基准测试中表现出色，超过了现有方法和模型。

尤其是在推理时扩展方面，DeepSeek-GRM-27B展现出显著的优势。

研究者还将DeepSeek-GRM-27B与更大规模的模型进行了比较，发现推理时扩展策略比单纯扩大模型规模更有效。

消融研究进一步验证了SPCT方法中各个组件的有效性。

研究结果表明，即使没有使用拒绝采样的评论数据进行冷启动，经过在线强化学习后，GRM的性能也能得到显著提升。

此外，原则生成对DeepSeek-GRM-27B的性能至关重要。

DeepSeek和清华的这项研究为提升LLM推理能力提供了一种新的思路。

通过增加推理计算资源，并采用SPCT等创新方法，可以有效提升奖励模型的性能。

这为未来LLM的发展和应用开辟了新的可能性。

这项研究也引发了一些值得思考的问题：推理时扩展策略的普适性如何？

在其他类型的LLM上是否也能取得类似的效果？

如何进一步优化SPCT方法以提升其效率和性能？

这些问题都有待进一步研究和探索。

玩酷网