强化学习改变了大语言模型的后训练范式,可以说,已成为 AI 迈向 AGI 进程中的关键技术节点。
然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。
当前,大模型在Next Token Prediction和Test-time Scaling两种扩展范式下,通过大规模的数据和模型扩展,实现了能力的持续跃升。但相比之下,奖励模型缺乏系统性的预训练和扩展方法,导致其能力难以随计算量增长而持续提升,成为阻碍强化学习链路进一步扩展的短板。
如何解决?
现在,来自上海人工智能实验室的研究团队提出了一种新的思路:
他们找到了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式——策略判别学习(Policy Discriminative Learning, POLAR),使奖励模型能够像大语言模型一样,具备可扩展性和强泛化能力。
POLAR 为大模型后训练带来突破性进展,并有望打通 RL 链路扩展的最后一环。
什么是 POLAR
先来看一下 POLAR 能做到什么。
与传统的奖励模型不同,POLAR 是根据参考答案为模型的输出打分。这意味着 POLAR 可以灵活地基于不同场景的参考答案给出不同的奖励分数,轻松适配多样的定制化需求。
下面是一个开放问题的例子,对应有三个不同风格的回复:
问题:彩虹是怎么形成的?
回答一:彩虹是阳光经过水滴折射和反射后形成的。
回答二:当阳光照射到空气中的小水滴时,光线会进入水滴发生折射,再从水滴的内壁反射后再次折射出水滴。由于不同波长的光折射角度不同,最终呈现出不同的颜色,这些颜色组合起来就形成了我们所看到的彩虹。
回答三:彩虹是阳光通过空气中的水滴折射和反射后形成的。生活中我们经常在雨后或喷泉、水幕附近看到彩虹,有时候还会看到双彩虹甚至三重彩虹呢!不过很可惜,彩虹本身只是光学现象,没法真正走近摸到。
对于这种开放问题,不同的用户可能会偏向不同风格的回复。此时,传统奖励模型的"绝对偏好"无法灵活应对不同的定制化场景。而 POLAR 只需要根据不同的参考回复,即可为三种回答给出不同的偏序关系,无需重新训练奖励模型。
来看 POLAR 实际打分的例子。如果给定的参考风格是简短扼要,POLAR 会给第一个回答最高的分数。
参考一:阳光穿过水滴的折射与反射形成了彩虹。
回答一:-2.095703125
回答二:-5.859375
回答三:-7.44921875
如果参考的是详细分析风格,POLAR 会给第二个回答最高分。
参考二:彩虹是阳光经过空气中的许多小水滴后,通过连续的折射与反射而产生的。当阳光进入水滴时,光线首先被折射进入水滴内部,然后在水滴内壁发生一次反射,随后再次折射射出水滴。因为阳光中不同颜色的光线波长各不相同,折射时产生的角度也略有差别,这使得光线被分解成红、橙、黄、绿、蓝、靛、紫等颜色,从而形成了我们所看到的绚丽彩虹。
回答一:-8.5625
回答二:-5.2421875
回答三:-8.125
如果参考的是俏皮发散风格,此时第三个回答的奖励分数最高。
参考三:彩虹是阳光经过水滴折射和反射后形成的。在日常生活中,只要条件合适,比如刚下完雨、喷泉边,甚至在水幕电影附近,都能邂逅这种美丽的景象。不过呢,虽然彩虹看上去很近,但它毕竟只是光的奇妙游戏,我们无论怎么追逐,都无法真正触碰到它,这也是大自然给我们留下的小小遗憾吧~
回答一:-9.53125
回答二:-8.609375
回答三:-4.484375
除了上述处理开放问题的灵活性,POLAR 也能解决有标准答案的闭式问题。相比"基于规则的验证"(RLVR)所提供的 0/1 二元奖励,POLAR 可以提供更加细粒度的偏好区分。
下面是一个例子:
问题:公交车上原本有 10 名乘客,到站后下去了 3 名,上来了 5 名,现在车上有多少名乘客?
参考答案: 10 名乘客 - 3 名下车 + 5 名上车。答案是 12。
回答一(答案正确,思路正确):最初有 10 名乘客,到站后 3 个人下车,因此剩下 7 人;又新上来了 5 人,7 人加上 5 人,总共是 12 人。因此最终有 12 名乘客。
分数:-5.1953125
回答二(答案正确,无思路):现在车上有 12 名乘客。
分数:-5.6171875
回答三(答案错误,思路正确):10 名乘客 - 3 名下车 + 5 名上车。答案是 13。
分数: -8.953125
回答四(答案正确,思路错误):10 名乘客 + 3 名下车 - 5 名上车。答案是 12。
分数: -9.5859375
回答五(答案错误,无思路):现在车上有 13 名乘客。
分数:-11.0703125
回答六(答案错误,思路错误):10 名乘客 + 3 名下车 - 5 名上车。答案是 13。
分数:-12.125
由此可见,POLAR 不仅摆脱了传统奖励模型"绝对偏好"的限制,更加弥补了 RLVR 难以拓展场景、奖励信号稀疏等问题。
POLAR 基于参考答案对模型输出进行打分,对更加接近参考答案的输出赋予更高的奖励值,在强化学习过程中让训练策略逐步向最优策略偏移。
这种特性使得 POLAR完美契合强化微调框架(Reinforcement Fine-tuning,RFT),让 RFT 在通用场景的应用成为可能。
POLAR 是如何训练的
在探讨 POLAR 的训练方式之前,我们首先回顾一下大语言模型(LLM)的成功之路。
传统的机器学习是为特定的任务训练特定的模型,例如为翻译任务训练翻译模型,很难做到任务间的泛化。
LLM 的成功就在于用 Next Token Prediction 的形式统一了所有任务,解决了任务形式不同导致无法泛化的难题。
现在奖励模型(RM)的设计仍然在重蹈传统方案的老路,即为特定场景标注偏好数据,训特定场景的 RM。
其中,RM 的打分标准是基于人类偏好来设定的,而打分标准就如同 LLM 的任务形式,具有多样性且无法穷举。
那么,能不能仿照 LLM 的成功之路,重新设计 RM 的训练范式,就像消除 LLM 的"任务形式"一样,找到一个脱离于"打分标准"之外的更本质的优化目标函数来进行预训练呢?
正是基于这样的思路,上海 AI Lab 提出了预训练奖励模型POLAR。
△POLAR 的两阶段训练(预训练和偏好微调)以及在 RFT 中的使用方法
与传统的基于"绝对偏好"的奖励建模方式不同,POLAR 通过衡量训练策略与目标策略之间的"距离"来作为奖励信号。当训练策略越接近目标策略时,POLAR 就给予越高的奖励。
具体来说,POLAR 使用了一种对比学习(Contrastive Learning)的方式学会策略分布的距离度量:同一个策略模型采样的结果作为正例,不同策略模型采样的结果作为负例。
通过这种方式构造正负样本,虽然有一些反直觉,但它是一种真正无偏的信号,和对抗生成网络(GAN)中判断是否是真实样本类似。
由于"距离"是一种相对性的概念,因此目标策略可任意指定,从而摆脱了对偏好数据人工标注的依赖,具有极强的可扩展潜力。实际上,POLAR 的预训练语料完全通过自动化合成数据构建。
具体而言,研究人员从 LLM 预训练语料中采样出大量的文本前缀,并从策略模型池(由开源的131个 Base LLM 和53个 Chat LLM 组成)中随机取模型进行轨迹采样。预训练目标使用 Bradley-Terry Loss:
其中,A1 和 A2 代表相同策略模型生成的轨迹(正样本对);B1 代表不同策略模型生成的轨迹(负样本)。
由于"距离"具有相对性,这里的 A 和 B 两个策略模型可以任意选取。例如,A1 和 A2 可以由 Qwen 1.5B 采样得到,B1 可以由 Qwen 72B 采样得到。通过这种方式,POLAR 的预训练语料非常容易扩展。
POLAR 使 RM 学会为相近策略产生的轨迹赋予更高奖励,从而隐式建模策略分布的差异和距离。在这一阶段,POLAR-1.8B 共使用了0.94T Token的预训练数据,POLAR-7B 共使用了3.6T Token的预训练数据。
在预训练阶段之后,POLAR 可以使用少量的偏好数据对齐人类偏好。具体来说,对于同一个 Prompt,采样三条轨迹,由人工标注偏好顺序。同样使用 Bradley-Terry Loss 进行微调:
其中,A > B > C,分别代表偏好最优、次优、最差的轨迹。这种偏好排序隐式定义了一种"策略差异",例如 A 可以视为从最佳策略分布中采样得到,而 C 可以视为从一个与最佳策略相差较远的策略分布中采样得到。
POLAR 具有 Scaling 效应吗?
△POLAR 的 Scaling Laws
一个重要的问题是,POLAR 预训练范式是否真的能展现 Scaling 效应?
研究人员从模型参数 N 和计算量 C 两个方面进行了实验。
如图所示,POLAR 的验证集损失随模型参数 N 的增加呈幂律关系下降,拟合的 R2 值为 0.9886。
验证集损失也随最优训练计算量 C 的增加呈幂律关系下降,拟合的 R2 值为 0.9912。
这些结果表明,分配更多的计算资源将持续带来更好的 POLAR 性能。也就是说,新范式展现出了与大语言模型 Next Token Prediction 目标类似的 Scaling Laws。
这体现了 POLAR 预训练方法的显著扩展优势,以及用于构建更通用和更强大的奖励模型的巨大潜力。
POLAR 效果如何?
研究人员通过一系列实验证明,POLAR 能做到对性能和泛化的双重保证。
△偏好评估实验结果
在偏好评估方面,POLAR 展现出优越的性能和全面性,在大多数任务维度上优于 SOTA 奖励模型。
例如,在 STEM 任务中,POLAR-1.8B 和 POLAR-7B 分别超越了最佳基线 24.9 和 26.2 个百分点,并且能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别,准确预测人类偏好。
值得注意的是,POLAR-1.8B 仅有 1.8B 参数,就可取得与 Skywork-Reward-27B 和 WorldPM-72B-UltraFeedback(参数量分别为其 15 倍和 40 倍)相当的结果,凸显了 POLAR 的强大潜力。
△强化微调实验结果
在强化微调实验中,POLAR 持续优于 SOTA 的开源奖励模型。
例如,使用 POLAR-7B 微调的 Llama-3.1-8B 在所有基准测试中,相对于初始结果平均提升了 9.0%,相对于 WorldPM-72B-UltraFeedback 优化的结果提升了 6.7%。
POLAR 能够从预训练阶段学习策略模型之间的细微区别,而不仅仅依赖于标注的偏好对,从而显著增强了实际 RL 应用时的奖励信号泛化性。
实验结果表明,尽管 POLAR-1.8B 和 POLAR-7B 在偏好评估中表现相似,但在下游 RL 实验中,POLAR-7B 展现出了显著优势。从 1.8B 到 7B 的效果提升,进一步说明了 POLAR 所具有的 Scaling 效应。
总结来说,POLAR 在预训练阶段通过对比学习建模策略间的距离,仅需少量偏好样本就可对齐人类偏好。在使用阶段,POLAR 利用 RFT 范式对 LLM 进行强化学习,展现出了极佳的泛化性。POLAR 作为一种全新的、可扩展的奖励模型预训练方法,为 LLM 后训练带来了新的可能,让通用 RFT 多了一种有效实践方案。有望打通 RL 链路 Scaling 的最后一环。
论文链接:https://arxiv.org/pdf/2507.05197
项目链接:https://github.com/InternLM/POLAR
模型链接:https://huggingface.co/internlm/POLAR-7B
* 本文系量子位获授权刊载,观点仅为原作者所有。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见
倍悦网-配资官方网站-正规的股票杠杆公司-场外配资公司提示:文章来自网络,不代表本站观点。