DeepSeekR2或将到来!清华合作论文揭示奖励模型推理时扩展新技术

量子心 2025-04-05 15:12:55

大型语言模型(LLM)的进步令人瞩目,但如何进一步提升它们的推理能力仍然是一个关键挑战。

强化学习(RL)已成为LLM后训练阶段的重要方法,获取准确的奖励信号却是一个难题。

DeepSeek与清华大学的研究者合作发表了一篇论文,探索通过增加推理计算资源来提升奖励建模能力的新途径,为LLM推理能力的提升带来了新的曙光。

强化学习在提升LLM推理能力方面展现了巨大潜力,但如何获得准确的奖励信号,尤其是在多样化的领域中,仍然是一个挑战。

这篇论文的核心在于探究奖励模型(RM)在推理阶段的可扩展性,即能否通过增加推理计算资源来提升RM的性能。

研究者发现,点式生成式奖励建模(GRM)具备推理阶段可扩展的潜力,并提出了一种名为自我原则点评调优(SPCT)的学习方法。

SPCT方法的核心在于训练GRM生成具备可扩展奖励能力的行为。

它包括两个阶段:拒绝式微调和基于规则的在线强化学习。

拒绝式微调阶段旨在使GRM适应不同的输入类型,并生成正确格式的原则和点评内容。

研究者巧妙地采用了点式GRM,使其能够灵活处理不同数量的回答。

为了提高预测奖励的准确性,他们引入了提示式采样技术。

在SPCT的第二阶段,基于规则的在线强化学习被用于进一步微调GRM。

通过在线优化生成的原则和点评内容,GRM能够更准确地区分最优回答,从而提升推理阶段的可扩展性。

这种方法的优势在于能够无缝对接任何偏好数据集和标注的LLM回答,具有很强的通用性。

这项研究的一个重要创新点在于将“原则”从理解过程解耦,转变为奖励生成的一部分。

这意味着原则不再是预先定义的,而是根据输入问题和回答动态生成的。

这种转变使得奖励生成过程更具适应性,也为推理阶段的可扩展性提供了关键支撑。

通过对GRM进行后训练,生成的原则和点评内容的质量和细致程度都能得到进一步提升。

为了进一步提升DeepSeek-GRM的性能,研究团队探索了推理时扩展策略。

他们提出了通过生成奖励进行投票的方法,通过多次采样并整合奖励结果,提升最终奖励的质量和细腻度。

为了避免采样过程中出现偏差,研究人员还引入了元奖励模型(meta RM)来引导投票过程,过滤掉低质量的样本。

DeepSeek和清华的研究者基于Gemma-2-27B,经过SPCT训练,提出了DeepSeek-GRM-27B模型。

实验结果表明,DeepSeek-GRM-27B在多个综合RM基准测试中表现出色,超过了现有方法和模型。

尤其是在推理时扩展方面,DeepSeek-GRM-27B展现出显著的优势。

研究者还将DeepSeek-GRM-27B与更大规模的模型进行了比较,发现推理时扩展策略比单纯扩大模型规模更有效。

消融研究进一步验证了SPCT方法中各个组件的有效性。

研究结果表明,即使没有使用拒绝采样的评论数据进行冷启动,经过在线强化学习后,GRM的性能也能得到显著提升。

此外,原则生成对DeepSeek-GRM-27B的性能至关重要。

DeepSeek和清华的这项研究为提升LLM推理能力提供了一种新的思路。

通过增加推理计算资源,并采用SPCT等创新方法,可以有效提升奖励模型的性能。

这为未来LLM的发展和应用开辟了新的可能性。

这项研究也引发了一些值得思考的问题:推理时扩展策略的普适性如何?

在其他类型的LLM上是否也能取得类似的效果?

如何进一步优化SPCT方法以提升其效率和性能?

这些问题都有待进一步研究和探索。

1 阅读:2
评论列表
  • 茗合 11
    2025-04-06 00:29

    deepseek伟大[点赞]

量子心

简介:量子心