作者/机构: Nicolas Le Roux∗,∇,1, Marc G. Bellemare∗,2, Jonathan Lebensold†,3, Arnaud Bergeron†,1, Joshua Greaves3, Alex Fréchette2, Carolyne Pelletier2, Eric Thibodeau-Laufer2, Sándor Toth2, Samantha Work2 (1Mila 2Reliant AI)
本文提出了一种名为 Tapered Off-Policy REINFORCE (TOPR) 的新算法,用于通过强化学习对大型语言模型进行微调。传统的REINFORCE算法在处理负面奖励时,本质上是一种在线(on-policy)算法,其良好表现依赖于训练数据分布与模型自身分布的匹配。这限制了其复用历史数据的能力,并且在离线(off-policy)训练中容易出现不稳定的问题,文献中普遍存在此类证据。虽然KL正则化可以缓解这种不稳定性,但它会减慢学习速度并引入额外的超参数。
为了解决这些问题,TOPR算法被提出,它旨在实现即使在模型与数据分布差异显著的情况下,也能稳定地利用正面和负面样本。TOPR的核心创新在于使用了一种非对称、锥形(tapered)的重要性采样变体,通过以下策略梯度来改进语言模型π(或策略):
$$\nabla J_{\text{TOPR}}(\pi) = \sum_{\tau: R(\tau) \geq 0} \mu(\tau) R(\tau) \nabla \log \pi(\tau) + \sum_{\tau: R(\tau) < 0} \mu(\tau) \left[ \frac{\pi(\tau)}{\mu(\tau)} \right]_0^1 R(\tau) \nabla \log \pi(\tau),$$其中,τ是从某个数据生成策略µ中采样的响应(或轨迹),R(τ)是与该轨迹相关的奖励,$[x]_b^a$表示标准的裁剪函数。这种设计使得TOPR在不需要显式KL惩罚项的情况下也能保证稳定的学习行为,从而简化了实现并提高了计算效率。
本文的主要贡献可以总结如下:
1. 提出TOPR算法:一种稳定且高效的离线策略强化学习算法,它通过非对称的锥形重要性采样,统一处理正面和负面样本,加速学习的同时保持了学习动态的稳定性。
2. 实验验证:在GSM8K和MATH推理基准上进行了一系列实验,证明了TOPR在训练解决方案生成模型和生成式验证器方面的性能增益。实验表明,与PPO、DPO和朴素REINFORCE相比,TOPR即使在模型π与数据生成策略µ差异显著时也能持续提升性能(如图1所示)。
3. 数据效率和性能提升:研究表明,在离线策略机制下,恰当地利用正面和负面样本能够同时提高测试时的准确率和训练数据的效率,并避免了因丢弃负面样本而导致的“推理浪费”。这种优势在多轮训练中持续存在,并可通过数据集策展技术放大,使得8B参数的模型能够达到70B参数模型的性能水平。
4. 揭示Baseline的新作用:作为一个附带发现,本文指出REINFORCE算法中的基线(baseline)参数在存在负面样本的情况下,扮演了定义数据集构成的关键且出乎意料的角色,对于驱动离线策略性能至关重要。
自回归语言模型。我们考虑一个自回归语言模型π,给定一个提示x,它根据以下公式为长度为n的响应y分配一个概率:
$$\pi(y | x)=\prod_{i=1}^{n} \pi\left(y_{i} | x, y_{<i}\right) .$$ <p>最大化期望奖励。给定一个奖励函数R(x, y)来衡量响应y对x的质量,以及一个提示数据集x1, . . . , xm,我们考虑最大化期望奖励的问题:策略优化视角。在本文中,我们抽象了提示-响应关系,并从策略优化的角度看待这个问题,其中τ是语言模型(即策略)产生的轨迹。因此,我们(稍有滥用地)写成:
REINFORCE算法。原始的REINFORCE算法【47,Simple statistical gradient-following algorithms for connectionist reinforcement learning,1992,Machine learning】通过在线策略优化的过程来最大化J(π)。在算法的最简单形式中,根据π采样单个轨迹τ,并根据无偏梯度估计来更新参数化策略π:
其期望值为:
$$\nabla J(\pi)=\mathbb{E}_{\tau \sim \pi} R(\tau) \nabla \log \pi(\tau).$$离线策略优化(OPPO)。实际上,训练很少是真正的在线策略,例如因为数据是并行异步生成的【31,Asynchronous methods for deep reinforcement learning,2016,Proceedings of the International Conference on Machine Learning】,或在单独的“边车”进程中生成【33,Asynchronous rlhf: Faster and more efficient off-policy rl for language models,2024,arXiv preprint】、【18,Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,2025,arXiv preprint】。在整个训练过程中重用轨迹显然是可取的,特别是当生成这些轨迹会产生巨大的计算成本,或者因为它们是由不同的过程(例如,专家轨迹)生成时。在离线策略优化(OPPO)设置中,我们假设存在一个参考分布µ,通常与π不同,它产生训练轨迹。本文的主要目标是强调在离线策略优化中处理负奖励轨迹的陷阱,并提出一种解决方案——TOPR——来避免这些陷阱,从而在训练语言模型时产生高性能、稳定的行为。为了解释TOPR背后的算法选择,我们回顾了现有的解决方案以及它们如何未能满足我们的期望。
二元奖励下的更新规则。作为热身,考虑一个二元奖励函数R(τ) ∈ {−1, 1},以及一个从µ中采样轨迹τ,然后根据公式2更新策略π的算法:
$$\nabla \hat{J}_{\mu}(\pi)=R(\tau) \nabla \log \pi(\tau).$$最大化的目标函数。这基本上对应于“朴素”的离线策略应用REINFORCE算法【1,Back to basics: Revisiting reinforce style optimization for learning from human feedback in LLMs,2024,arXiv preprint】。在期望上,这个更新最大化了以下目标:
其中T+和T−分别是具有正奖励和负奖励的轨迹集合。
不稳定性的根源。第一项通过使π在正子集T+上尽可能接近µ来最大化。而第二项则激励π尽可能远离µ。这一项在π方面是无上界的,可以通过将µ支持的任何单个轨迹的概率驱动到零来使其任意大。这对模型参数起到了破坏性作用,驱使它们产生无限负的logits,并且在没有保障措施的情况下,最终会导致退化行为。
现有缓解方法的局限性。我们将在3.1节中表明,虽然这个问题可以通过提前停止、使用基线参数或向µ进行KL正则化来缓解,但所有这些修改实际上都是通过完全或部分忽略负轨迹来起作用的,从而限制了可以离线完成的学习量。
移除负样本。一个避免模型因负轨迹而灾难性失败的简单解决方案是完全从数据集中移除它们。这可以被解释为一种奖励加权的监督式微调(SFT)。相应的目标是:
$$J_{\text{SFT}}(\pi) = \sum_{\tau \in T^{+}} \mu(\tau)R(\tau) \log \pi(\tau),$$其中,如果R(τ)为正,则轨迹τ的权重为µ(τ)R(τ),否则为0。如果我们写成$µ_R^+(τ) \propto µ(τ)R(τ)$,那么$−J_{sft}(π)$就是$µ_R^+$和π之间的交叉熵损失。
与现有方法的联系。通常意义上的监督式微调【52,Fine-tuning language models from human preferences,2019,arXiv preprint】可以被看作是所有正奖励都等于+1,且µ是固定的、独立于语言模型的特殊情况。更有趣的是当数据集由LLM自身生成时,即µ是π或接近π,或者由另一个LLM生成,可能还有一个过滤步骤以进一步提高数据集质量。STaR【49,Star: Bootstrapping reasoning with reasoning,2022,Advances in Neural Information Processing Systems】、ReST【17,Reinforced self-training (rest) for language modeling,2023,arXiv preprint】和ReST-EM【42,Beyond human data: Scaling self-training for problem-solving with language models,2023,arXiv preprint】都遵循这种模式。
监督式微调的局限性。通过从数据集中移除负样本,我们得到了一个有上界的目标。因此,这些方法是稳定的。由于它们是使用交叉熵损失实现的,它们也可以快速学习模仿分布$µ_R^+$,这是我们在TOPR中保留的一个特性。然而,忽略负样本显然带来了机会成本:对于具有挑战性的问题,可能只有很少的正样本,找到它们可能需要额外的机制,如参考引导的评分【51,Judging llm-as-a-judge with mt-bench and chatbot arena,2023,Advances in Neural Information Processing Systems】,以及浪费的推理周期。在数学上,缺乏负样本意味着π被激励保持更接近µ,这限制了在不得不从LLM重新采样之前可以取得的进展量。
重要性采样的引入。重要性采样或许是解决分布偏移最常用的技术。从
$$J(\pi)=\underset{\tau \sim \mu}{\mathbb{E}}\left[\frac{\pi(\tau)}{\mu(\tau)} R(\tau)\right]$$我们可以推导出在线策略梯度的无偏估计:
$$\nabla \hat{J}_{\text{OPR}}(\pi) = \frac{\pi(\tau)}{\mu(\tau)} R(\tau) \nabla \log \pi(\tau).$$我们称之为离线策略REINFORCE(OPR)梯度。
重要性采样的方差问题。理论上,公式5提供了一个优化真实目标J(π)的便捷算法:从µ采样一个轨迹τ,并将其更新乘以重要性比率$\frac{π(τ)}{µ(τ)}$。然而,在实践中,众所周知,重要性采样受到过大方差的困扰。这在对序列进行优化时尤其成问题,因为重要性比率是许多单步比率的乘积【37,Off-policy temporal-difference learning with function approximation,2001,Proceedings of the 18th International Conference on Machine Laerning】。梯度方差对正轨迹(其概率π(τ)在训练期间增加)和负轨迹都很重要,对于负轨迹,单个过大的比率可能对模型参数产生巨大的破坏性影响。
截断重要性采样(TIS)。方差问题可以通过截断重要性比率来缓解,这项技术已在基于价值的强化学习【32,Safe and efficient off-policy reinforcement learning,2016,Advances in Neural Information Processing Systems】、【12,Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures,2018,Proceedings of the International Conference on Machine Learning】和应用于抽取式问答的REINFORCE【14,Simulating bandit learning from user feedback for extractive question answering,2022,arXiv preprint】中被证明是有效的。相应的样本梯度是:
$$\nabla \hat{J}_{\mathrm{TIS}}(\pi)=\left[\frac{\pi(\tau)}{\mu(\tau)}\right]_{0}^{1} R(\tau) \nabla \log \pi(\tau),$$其中
$$[x]_{a}^{b}=\min (\max (x, a), b).$$TIS的局限性。截断重要性采样(TIS)是TOPR的一个组成部分。然而,在某些情况下,遵循J(π)的梯度并不可取,这证明了进一步改进的合理性。要理解这一点,请注意当重要性比率$\frac{π(τ)}{µ(τ)}$接近0时,梯度的范数也接近0。如果这种情况发生在具有正奖励的轨迹上,模型将需要很长时间来增加该轨迹的概率。这并非重要性采样所特有,实际上是通常的在线策略REINFORCE的一个问题【21,A natural policy gradient,2001,Advances in neural information processing systems】。我们将在实验中展示,TIS虽然有效,但对数据集构成和奖励基线的选择更为敏感,并可能导致优化速度变慢。
改变目标函数。与其像前几节那样试图“修复”朴素的REINFORCE算法,我们不如更直接地改变目标函数来提高稳定性和性能。在介绍TOPR之前,我们讨论两种流行的方法,PPO和DPO,它们采取了这种方法。
PPO:截断目标函数。PPO【39,Proximal policy optimization algorithms,2017,arXiv preprint】是使用最广泛的基于策略的方法之一,它优化以下目标:
对于ϵ ∈ (0, 1)。这个目标对正负奖励进行了不对称处理,基本上由三部分组成(图2)。在接近在线策略的设置中,当在重新采样轨迹之前只进行少量更新时,这可以非常有效;例如,GRPO【18,Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,2025,arXiv preprint】用一个依赖于批次的基线修改了方程6。然而,PPO目标将重要性比率应用于奖励,而不是梯度;因此,$J_{ppo}(π)$的梯度在$[1 − ϵ, 1 + ϵ]$范围之外变为零,这限制了其用途,并且当在重新采样轨迹之前进行超过几次更新时,可能会导致脆弱性。同样,该算法没有动力将负轨迹的相对概率降低到1 − ϵ以下,这限制了从µ可能获得的改进。尽管像sPPO这样的变体增加了这种鲁棒性【45,A general class of surrogate functions for stable and efficient reinforcement learning,2022,AISTATS】,但它们的性能在几十或几百次更新后仍然会下降。
DPO:平衡正负样本。DPO【38,Direct preference optimization: Your language model is secretly a reward model,2023,Advances in Neural Information Processing Systems】处理成对的轨迹,并最大化这两个轨迹的加权对数概率比。对于正轨迹τw和负轨迹τl,DPO目标是:
$$J_{\text{DPO}}(\pi) = \log \sigma \left( \beta \log \frac{\pi(\tau_w)}{\mu(\tau_w)} - \beta \log \frac{\pi(\tau_l)}{\mu(\tau_l)} \right),$$其中σ是sigmoid函数。当奖励为-1或1时,DPO可以被重新用于处理负轨迹和正轨迹【19,Direct language model alignment from online ai feedback,2024,arXiv preprint】、【4,Human alignment of large language models through online preference optimisation,2024,Proceedings of the International Conference on Machine Learning】,并且实际上非常适合离线策略优化【33,Asynchronous rlhf: Faster and more efficient off-policy rl for language models,2024,arXiv preprint】。然而,DPO并不直接旨在最大化J(π),并且在轨迹数量有限的情况下,目标函数可能会增加,而正轨迹的概率却会减少,只要负轨迹的概率减少得更多。我们将在实验中看到,虽然DPO在离线策略下确实表现良好,但它在很大程度上被TOPR超越。最近,CoPG【13,Contrastive policy gradient: Aligning llms on sequence-level scores in a supervised-friendly fashion,2024,arXiv preprint】也应用了对比负样本和正样本的思想,虽然其更新形式与REINFORCE相似,但使用精心设计的基线使得该方法类似于DPO和IPO【2,A general theoretical paradigm to understand learning from human preferences,2024,International Conference on Artificial Intelligence and Statistics】,因此我们将其从我们的分析中省略。
TOPR算法介绍。我们现在介绍TOPR算法。TOPR使用重要性采样来降低在π下不太可能的负面轨迹的权重,同时允许正面轨迹被加权,而不管π如何。我们考虑的通用框架涉及两组截断限制,$a^+ ≤ b^+$ 和 $a^− ≤ b^−$:
$$\nabla J_{\cdot}(\pi)=\sum_{\tau \in T^{+}} \mu(\tau)\left[\frac{\pi(\tau)}{\mu(\tau)}\right]_{a^{+}}^{b^{+}} R(\tau) \nabla \log \pi(\tau)+\sum_{\tau \in T^{-}} \mu(\tau)\left[\frac{\pi(\tau)}{\mu(\tau)}\right]_{a^{-}}^{b^{-}} R(\tau) \nabla \log \pi(\tau) .$$通过选择不同的截断限制,我们可以得到上一节介绍的许多方法(表1)。TOPR本身对应于一系列截断限制,将这些方法的理想属性结合到一个学习规则中。
优雅地忘却负面轨迹。通过选择 $a^− = 0$,我们允许算法逐渐减少负面轨迹对梯度的贡献,正如重要性采样所提供的那样。任何 $a^− > 0$ 最终都必须导致模型退化,就像朴素的REINFORCE一样(第2.1节)。
快速学习正面轨迹。通过选择 $a^+ > 0$,我们获得了监督式微调的好处:我们确保了正面轨迹的最低学习率,并在它们在π下的概率较低时加速其学习。这使我们能够避免困扰REINFORCE在高维动作空间中的“准局部最小值”问题。
权衡偏差与方差。上截断限制使我们能够控制梯度方差,正如从截断重要性采样中所预期的那样。这在训练早期对负面样本很重要,因为少数样本可能会表现出非常大的重要性比率;在训练后期对正面样本很重要,因为我们预计未截断的比率会远大于1。
TOPR的规范形式。我们遵循奥卡姆剃刀原则,将TOPR的规范形式定义为 $a^− = 0$ 且所有其他参数均为1的算法。这产生了预期的TOPR梯度:
$$\nabla J_{\text{TOPR}}(\pi) = \underbrace{\sum_{\tau \in T^+} \mu(\tau) R(\tau) \nabla \log \pi(\tau)}_{\text{SFT update for positive examples}} + \underbrace{\sum_{\tau \in T^-} \mu(\tau) \left[ \frac{\pi(\tau)}{\mu(\tau)} \right]_0^1 R(\tau) \nabla \log \pi(\tau)}_{\text{TIS update for negative examples}},$$该梯度结合了用于正面样本的SFT更新(导致加速)和用于负面样本的TIS更新(允许在不脆弱的情况下处理它们)。算法1概述了在离线、深度学习设置中TOPR的实现。
实用性与理论依据。从实践角度来看,我们将在第4节中证明,这种规范参数化非常有效,并为数据分布和深度学习超参数的选择提供了鲁棒性。然而,在此之前,我们为TOPR背后的设计选择提供了理论依据。
基线参数的局限性。在第2.1节中,我们认为引入基线参数无法在不牺牲性能风险的情况下创造稳定的离线学习行为。我们将在本节和下一节中更精确地阐述这一点。首先,让我们重新审视期望的朴素REINFORCE更新,现在引入一个基线参数 $c \in R$:
$$\nabla J_{\mu, c}(\pi)=\underset{\tau \sim \mu}{\mathbb{E}}[(R(\tau)-c) \nabla \log \pi(\tau)].$$隐式最小化的损失。我们将此更新表示为其隐式最小化的损失 $L_{µ,c}$:
$$\begin{aligned} \begin{aligned} \mathcal{L}_{\mu, c}(\pi) & = -J_{\mu, c}(\pi) \\ & = -J(\mu) - \mathbb{E}_{\tau \sim \mu} \left[ (R(\tau) - c) \log \frac{\pi(\tau)}{\mu(\tau)} \right], \end{aligned} \end{aligned}$$其中我们定义 $J_{µ,c}$ 使得 $J_{µ,c}(µ) = J(µ)$。以下内容确立了正面和负面样本以及基线对期望损失 $L_{µ,c}(π)$ 的贡献。
命题3.1。方程10是四部分损失:
$$\mathcal{L}_{\mu, c}(\pi)=C+R_{\mu}^{+} K L\left(\mu_{R}^{+} \| \pi\right)-R_{\mu}^{-} K L\left(\mu_{R}^{-} \| \pi\right)-c K L(\mu \| \pi),$$其中 $µ^−_R$ 是奖励加权分布:
$$\begin{aligned} \mu_{R}^{-}(\tau)=\left\{\begin{array}{ll} \frac{\mu(\tau)|R(\tau)|}{R_{\mu}^{-}} & \text {if } R(\tau)<0, \\ 0 & \text { otherwise; } \end{array} \quad R_{\mu}^{-}=\sum_{\tau \in T^{-}} \mu(\tau)|R(\tau)| ; \quad T^{-}=\{\tau: R(\tau)<0\},\right. \end{aligned}$$$µ^+_R$ 的定义与此对称,C是一个与π无关的常数。
基线的影响。命题3.1表明,基线会引入朝向(c < 0)或远离(c > 0)采样分布的KL正则化【亦见于【24,Efficient iterative policy optimization,2016,arXiv preprint】,【45,A general class of surrogate functions for stable and efficient reinforcement learning,2022,AISTATS】】。在µ = π时,这再次证实了一个众所周知的事实:基线对期望的在线策略梯度没有影响【47,Simple statistical gradient-following algorithms for connectionist reinforcement learning,1992,Machine learning】、【43,Policy gradient methods for reinforcement learning with function approximation,1999,Advances in Neural Information Processing Systems】。特别是,当所有奖励都为正时($R^−_µ = 0$),方程9将策略π移向采样分布µ的奖励加权版本【15,An operator view of policy gradient methods,2020,Advances in Neural Information Processing Systems】。
重要性采样避免的问题。命题3.1还表明,添加基线以最小化负奖励的影响(c < 0)是通过将π正则化到µ来实现的。为了保证稳定的行为,基线通常必须匹配最小的负奖励(例如,$R'(τ) = R(τ) - c \geq 0$)。然而,在这一点上,基线实际上从目标函数中移除了负轨迹——从而丢失了这些轨迹中包含的信息。重要的是,使用重要性采样避免了这个问题。为了理解这一点,我们首先注意到方程7是以下函数的梯度:
$$J_{\text{TOPR}}(\pi) = \sum_{\tau \in T^+} \mu(\tau)\rho\left(\frac{\pi(\tau)}{\mu(\tau)}, a^+, b^+\right)R(\tau) + \sum_{\tau \in T^-} \mu(\tau)\rho\left(\frac{\pi(\tau)}{\mu(\tau)}, a^-, b^-\right)R(\tau),$$其中 $ρ(·, a, b) : [0, \infty) \rightarrow R$ 是锥度函数(taper function):
$$\begin{aligned} \rho(x, a, b)=\left\{\begin{array}{ll}a\left(1+\log \frac{x}{a}\right) & \text { if } xb \\ x & \text { otherwise. }\end{array}\right. \end{aligned}$$锥度函数ρ的作用。锥度函数ρ描述了截断对TOPR优化的目标函数的影响。它定义了重要性比率的下界,即对于任何a ≤ b,
$$\rho\left(\frac{\pi(\tau)}{\mu(\tau)}, a, b\right) \leq \frac{\pi(\tau)}{\mu(\tau)} ;$$并且它在区间[a, b]上等于这个比率(图2)。
TOPR优化真实目标的下界。对于我们的规范选择 $a^+ = b^+ = 1$ 和一个正奖励函数 $R(τ) \geq 0$,这意味着TOPR优化了真实目标J(π)的一个下界:
这个界限的推导基于Deisenroth等人【8,A survey on policy search for robotics,2013,Foundations and Trends® in Robotics】、Le Roux【24,Efficient iterative policy optimization,2016,arXiv preprint】、【25,Tighter bounds lead to improved classifiers,2017,International Conference on Learning Representations】和Gulcehre等人【17,Reinforced self-training (rest) for language modeling,2023,arXiv preprint】对相关算法的分析。以下命题为更广泛的截断参数范围建立了TOPR的稳定离线行为。
命题3.2。对于 $a^− = 0$,方程11是有上界的:存在一个B,使得
$$\sup\nolimits_{\pi} J_{TOPR}(\pi) \leq B.$$此外,对于任何 $a^− > 0$,$J_{topr}(π)$是无上界的,除非对于所有τ都有$R(τ) \geq 0$。
锥度函数的优势和挑战。对于正面样本,锥度函数($a^+ = 1$)即使在π(τ)很小时也能保持相当大的梯度。这是因为用于代理目标梯度的权重µ(τ)与当前策略π无关。这使得模型能够从分配给良好轨迹的低概率π(τ)中恢复,避免了REINFORCE的传统失败。根据经验,Le Roux【25,Tighter bounds lead to improved classifiers,2017,International Conference on Learning Representations】在优化这个对数比率下界时观察到更低的方差和更有效的学习。然而,对于负奖励,用对数比率替换重要性比率会导致代理目标成为J(π)的上界【24,Efficient iterative policy optimization,2016,arXiv preprint】,这是对命题3.2结论的另一种表述方式。
数据集策展的重要性。除了损失函数的选择,训练集的构成对训练后模型的性能至关重要。例如,在训练语言模型执行思维链推理的背景下,诸如STaR、ReST和ReST-EM等数据集策展方法的主要区别在于它们包含哪些数据。
基线参数对数据集构成的调节作用。正如我们将看到的,数据集中正面和负面样本的相对重要性对良好性能同样至关重要。有趣的是,基线参数也可以被解释为调节这种相对重要性。
基线对目标函数的加权效应。让我们再次假设一个二元奖励函数$R_0(τ) \in \{-1, 1\}$和一个基线$c \in [-1, 1]$。设$p = |T^+|/(|T^+| + |T^−|)$是数据集中正面样本的比例。将$R(τ) = R_0(τ) - c$代入方程11,我们得到:
有效正样本比例。通过这种转换,每个正面样本对目标的贡献由1 − c加权。经过一些代数运算,我们发现正面样本的有效比例从p变为:
$$\tilde{p}=\frac{p(1-c)}{p(1-c)+(1-p)(1+c)}=\frac{p(1-c)}{1+(1-2p)c}.$$基线调节的灵活性。对于一个固定的数据集,我们可以通过根据方程12修改基线来改变正面和负面样本的相对重要性(p˜ 和 1 − p˜)。这推广了上一节的结论,即丢弃负面样本等同于使用-1的基线。
负样本与离线学习。此外,基线c的选择可以被看作是向TOPR目标添加了一个更柔和的KL(µ ∥ π)项,当c < 0时再次鼓励π保持接近µ(见附录C)。由于负基线c也增加了数据集中正面样本的有效比例,我们看到,更大比例的正面样本将降低在不重新采样训练集的情况下可实现的离线程度。因此,添加负面样本可以被看作是进一步改进策略的一种方式。我们将在第4节中展示如何通过数据集构成或基线仔细选择正面样本的有效比例,从而带来准确率的提升。
我们研究了TOPR在训练语言模型执行两项任务之一的有效性:思维链(CoT)推理和验证此类推理。我们主要关注单次迭代、完全离线的场景,旨在描述TOPR与先前替代方案相比在训练语言模型方面的相对稳定性和有效性。我们的结果自然地补充了所有通过迭代方式改进语言模型的方法。
软件与依赖:
超参数:
训练流程:一次训练迭代包括:使用模型(通常是基础模型)生成候选解,用奖励标记这些候选解,然后在这个生成的数据集上进行一个epoch的训练。参考分布µ对应于迭代开始时的模型预测。
与现有方法的比较。我们的第一个实验旨在回答:在离线策略优化中,更仔细地处理重要性比率和奖励是否有益?我们比较了PPO、DPO、朴素REINFORCE和TOPR。如图1所示,朴素REINFORCE在没有KL项的情况下会崩溃,PPO很快停止改进,DPO表现良好但不如TOPR。相比之下,TOPR迅速改进基础模型,达到了可观的准确率水平。
TOPR最小化推理失败。为了理解TOPR成功的原因,我们测量了训练过程中生成的解决方案中正确、不正确或无效(即没有出现"The answer is"字符串)的比例。图3有力地证明了REINFORCE性能不佳的根源在于其生成内容在训练结束时绝大多数是退化的。相比之下,TOPR有效地教会了模型避免不正确的格式,从而产生了一个理想的特性:可以完全依赖RL来生成解决方案,而无需使用额外的工具来正确格式化它们。
使用负样本提升性能。为了理解负样本对训练的影响,我们创建了一个“仅正样本”的数据集。如图4(上)所示,使用这个数据集虽然学习稳定,但性能远低于TOPR。这转化为更高的自洽性(self-consistency)效率:在测试时需要生成更多解决方案才能达到相同性能水平(右上)。从正确答案数量的分布来看(左下),TOPR的性能提升归因于减少了没有或很少找到正确解的问题数量。在MATH数据集上,TOPR也使pass@1准确率几乎翻倍(右下)。此外,TOPR的训练推理效率更高,因为它利用了所有vLLM的生成结果。
正负样本的正确平衡。我们通过改变数据集中有效正样本的比例来进一步分析。我们使用了两个数据集:一个含10%正样本("10p"),另一个含50%正样本("50p")。然后,我们通过调整基线来改变有效正样本比例。图5显示,无论训练集中实际的正样本比例如何,TOPR的性能在有效正样本比例为10-20%左右时达到最大。性能在比例过小或过大时都会下降,尤其是在超过50%时显著降低。这表明有效比例比实际比例更关键。图6显示,对于GSM8K和MATH,最佳有效比例都在10-20%左右。这进一步证明了最佳基线并不总是实践中的期望回报。此外,通过采样达到理想比例比通过设置基线性能稍好。
加速功能提高对数据集构成的鲁棒性。鉴于负样本的重要性以及数据集构成的相关性,我们研究了TOPR的正面样本加速功能($a^+=1$)是否在正样本稀少时有帮助。图6显示,当有效正样本比例较低时,模型倾向于降低训练集中大多数轨迹的概率。由于其加速功能,TOPR可以从这些情况中恢复,而TIS则不能。当有效正样本比例较高时,TOPR和TIS之间几乎没有差异。有趣的是,TIS的峰值pass@1准确率略高于TOPR,这表明TIS可能以鲁棒性换取峰值性能。
比率截断提高稳定性。我们研究了TOPR中的重要性比率截断是否必要。我们使用标准重要性采样(IS)进行训练。如图7所示,在默认设置下,IS与TOPR性能相当,这是因为梯度裁剪和训练集中相对较少的负样本(约33%)缓解了梯度范数爆炸问题。然而,当使用负样本偏多的数据集(60%负样本)和更高的梯度裁剪参数(100.0)时,TOPR虽然受影响但仍优于基模型,而标准IS则损害了模型性能,训练结束时产生31%的错误推理,远高于基模型的12%。
TOPR在多轮迭代中表现优异。我们结合之前的见解,证明TOPR是迭代微调的有效内循环算法。如图8所示,模型性能在多轮迭代中持续提高。TOPR比仅正样本采样学习得更快。我们引入了一种名为“安娜·卡列尼娜采样”的数据集平衡技术:对每个问题,我们只保留第一个正样本,并用随机选择的负样本填充迭代批次。在GSM8K上,这种技术比均匀采样学习效率更高(pass@1准确率79.6% vs 75.4%)。将TOPR应用于更新的DeepSeek 8B模型【18,Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,2025,arXiv preprint】,其maj@16准确率迅速超过了Llama 3的70B版本。
我们研究了使用多个CoT生成来验证LLM输出的用法,即生成式验证器。我们旨在探究TOPR是否能提高验证器性能和解决方案质量。
实验设置与结果。对于MATH数据集中的每个训练样本,我们使用70B模型为每个问题生成16个解决方案,每个方案有4个验证。然后,我们使用TOPR对一个8B模型进行微调,使其充当生成式验证器,总共使用了480,000个数据点。如表2所示,这个过程产生了一个对MATH生成内容更有效的验证器,无论是在验证器准确率还是对解决方案质量的影响方面。与图3的结果相比,我们发现TOPR微调的模型几乎不输出无效的生成——仅仅因为这样做会受到负奖励。
我们的研究结果表明,对REINFORCE进行一个简单但有原则的改变,就足以使其在离线策略(off-policy)场景中成功且稳定地部署。与现有的数据集策展方法相比,我们的方法效率更高:在生成数据集时,所有数据点都被保留;在训练时,因为不需要KL正则化,并且负面样本被有效利用以提高性能;在测试时,因为需要生成的解决方案更少。我们的理论进一步为强化学习中的截断重要性采样提供了一个基于优化的替代视角,这可能值得重新审视其他使用该技术的算法【32,Safe and efficient off-policy reinforcement learning,2016,Advances in Neural Information Processing Systems】。最后,我们的分析为基线参数和数据集构成在离线策略强化学习中的作用提供了新的见解。
展望未来,有多个研究方向。一方面,我们的实验工作局限于µ是迭代开始时的模型,并且数据点是以“自学习”风格生成的。在离线设置【26,Offline reinforcement learning: Tutorial, review, and perspectives on open problems,2020,arXiv preprint】中部署这个方法,使用不同的µ,自然会带来好处,但初步看这会带来数值上的挑战。我们也将自己局限于大型语言模型的训练,但没有理由相信TOPR在强化学习的其他应用领域,如视频游戏【3,The Arcade Learning Environment: An evaluation platform for general agents,2013,Journal of Artificial Intelligence Research】到机器人技术【22,Scalable deep reinforcement learning for vision-based robotic manipulation,2018,Conference on Robot Learning】,不会有同样出色的表现。
符号定义。如正文所述,我们将正负轨迹分为 $T^+ := \{\tau : R(\tau) \geq 0\}$ 和 $T^− := \{\tau : R(\tau) < 0\}$。定义奖励加权分布:
对于$µ_R^+$和$R_µ^+$的定义也是对称的。
推导过程。我们有:
$$\begin{aligned} \begin{aligned} J_{\mu, c}(\pi)-J(\mu) & =\underset{\tau \sim \mu}{\mathbb{E}}[R(\tau)-c] \log \frac{\pi(\tau)}{\mu(\tau)} \\ & =\underset{\tau \sim \mu}{\mathbb{E}}\left[R(\tau) \log \frac{\pi(\tau)}{\mu(\tau)}\right]-c \underset{\tau \sim \mu}{\mathbb{E}}\left[\log \frac{\pi(\tau)}{\mu(\tau)}\right] \\ & =\sum_{\tau} \mu(\tau) R(\tau) \log \pi(\tau)+c \mathrm{KL}(\mu \| \pi)+C_{0}, \end{aligned} \end{aligned}$$其中KL(µ ∥ π)表示从µ到π的KL散度,$C_0 \in R$。现在我们将上式的第一项分解为其正负部分:
最终结果。将所有部分组合起来,我们得到:
$$\mathcal{L}_{\mu, c}(\pi)=C+R_{\mu}^{+} \mathrm{KL}\left(\mu_{R}^{+} \| \pi\right)-R_{\mu}^{-} \mathrm{KL}\left(\mu_{R}^{-} \| \pi\right)-c \mathrm{KL}(\mu \| \pi),$$其中C是一个与π无关的常数。
TOPR目标函数的梯度。我们回顾TOPR目标函数的梯度:
假设。假设有两个轨迹:一个具有正回报的 $τ^+$ ($R(τ^+) > 0$) 和一个具有负回报的 $τ^−$ ($R(τ^−) < 0$)。我们称相关的logits为 $z^+$ 和 $z^−$,即 $π(τ^+) = \frac{exp(z^+)}{\sum_z exp(z)}$,$π(τ^−) = \frac{exp(z^−)}{\sum_z exp(z)}$。
总梯度。我们首先研究精确梯度的情况。$z^+$ 和 $z^−$ 的总梯度等于:
$$\begin{aligned} \begin{aligned} \nabla_{z^{+}} J_{\text {TOPR }}(\pi)= & -\pi\left(\tau^{+}\right)\left(\sum_{\tau: R(\tau)>0} \mu(\tau)\left[\frac{\pi(\tau)}{\mu(\tau)}\right]_{a^{+}}^{b^{+}} R(\tau)+\sum_{\tau: R(\tau)<0} \mu(\tau)\left[\frac{\pi(\tau)}{\mu(\tau)}\right]_{a^{-}}^{b^{-}} R(\tau)\right)+\mu\left(\tau^{+}\right)\left[\frac{\pi\left(\tau^{+}\right)}{\mu\left(\tau^{+}\right)}\right]_{a^{+}}^{b^{+}} R\left(\tau^{+}\right) \\ \nabla_{z^{-}} J_{\text {TOPR }}(\pi)= & -\pi\left(\tau^{-}\right)\left(\sum_{\tau: R(\tau)>0} \mu(\tau)\left[\frac{\pi(\tau)}{\mu(\tau)}\right]_{a^{+}}^{b^{+}} R(\tau)+\sum_{\tau: R(\tau)<0} \mu(\tau)\left[\frac{\pi(\tau)}{\mu(\tau)}\right]_{a^{-}}^{b^{-}} R(\tau)\right)+\mu\left(\tau^{-}\right)\left[\frac{\pi\left(\tau^{-}\right)}{\mu\left(\tau^{-}\right)}\right]_{a^{-}}^{b^{-}} R\left(\tau^{-}\right) \end{aligned} \end{aligned}$$梯度差异分析。由于 $z^+$ 和 $z^−$ 是logits,它们对平移是不变的,我们研究梯度之间的差异来理解包含负样本的后果。我们首先定义:
SFT的影响。监督式微调(SFT)设置 $a^− = b^− = 0$。这有两个影响。首先,∆会更大,因为总和中的负项被设为0。假设 $π(τ^−) − π(τ^+) < 0$,这使得梯度差异中的第一项更负。其次,项 $−µ(τ^−)[\frac{π(τ−)}{µ(τ−)}]_{a−}^{b−}R(τ^−)$,当 $b^− > 0$ 时为正,被设为0。总的来说,梯度差异变小了,导致应用于正轨迹和负轨迹的梯度之间的差异减少。因此,学习发生得更少,这种现象也可以通过基线来解释,见C节。
随机估计下的现象。当只看梯度的随机估计而不是真实期望时,会发生另一种现象。毕竟,截断重要性比率的目标是处理由随机性引起的方差。
引入未采样轨迹。为此,我们需要引入另外两个轨迹。除了我们假设是我们两个采样轨迹的 $τ^+$ 和 $τ^−$ 之外,我们还考虑 $ν^+$ 和 $ν^−$,它们有相关的logits $s^+$ 和 $s^−$,分别有正负回报但未被采样。我们有以下梯度:
$$\begin{aligned} \begin{aligned} \nabla_{z^+} \hat{J}_{\text{TOPR}}(\pi) &= \left[ \frac{\pi(\tau^+)}{\mu(\tau^+)} \right]_{a^+}^{b^+} R(\tau^+)[1 - \pi(\tau^+)] - \left[ \frac{\pi(\tau^-)}{\mu(\tau^-)} \right]_{a^-}^{b^-} R(\tau^-)\pi(\tau^+) \\ \nabla_{z^-} \hat{J}_{\text{TOPR}}(\pi) &= -\left[ \frac{\pi(\tau^+)}{\mu(\tau^+)} \right]_{a^+}^{b^+} R(\tau^+)\pi(\tau^-) + \left[ \frac{\pi(\tau^-)}{\mu(\tau^-)} \right]_{a^-}^{b^-} R(\tau^-)[1 - \pi(\tau^-)] \\ \nabla_{s^+} \hat{J}_{\text{TOPR}}(\pi) &= -\pi(\nu^+) \left( \left[ \frac{\pi(\tau^+)}{\mu(\tau^+)} \right]_{a^+}^{b^+} R(\tau^+) + \left[ \frac{\pi(\tau^-)}{\mu(\tau^-)} \right]_{a^-}^{b^-} R(\tau^-) \right) \\ \nabla_{s^-} \hat{J}_{\text{TOPR}}(\pi) &= -\pi(\nu^-) \left( \left[ \frac{\pi(\tau^+)}{\mu(\tau^+)} \right]_{a^+}^{b^+} R(\tau^+) + \left[ \frac{\pi(\tau^-)}{\mu(\tau^-)} \right]_{a^-}^{b^-} R(\tau^-) \right) . \end{aligned} \end{aligned}$$梯度局部化。最后两个方程对应于未包含在样本中的轨迹的梯度。对于这些方程中的每一个,括号内的两项符号相反。因此,同时包含两者通常会减小未见轨迹梯度的范数。正如在期望梯度中看到的,同时包含两项也增加了正轨迹 $τ^+$ 的梯度,同时减小了负轨迹 $τ^−$ 的梯度。换句话说,设置 $b^− > 0$ 将质量从未见轨迹的梯度转移到已见轨迹的梯度。这将使对策略的更改更加局部化。
基线在离线策略中的不同作用。在标准REINFORCE中,向奖励添加基线不会改变梯度估计的无偏性,但会影响其方差。在离线策略优化中,情况并非如此。回顾公式(7),假设 $a^+ = a^− = 0$, $b^+ = b^− = b$,我们看到添加基线c会得到:
$$\begin{aligned} \begin{aligned} \nabla J_{\text{TOPR}}(\pi, c) &= \sum_{\tau} \mu(\tau) \left[ \frac{\pi(\tau)}{\mu(\tau)} \right]_0^b [R(\tau) - c] \nabla \log \pi(\tau) \\ &= \sum_{\tau} \mu(\tau) \left[ \frac{\pi(\tau)}{\mu(\tau)} \right]_0^b R(\tau) \nabla \log \pi(\tau) \\ &\quad - \sum_{\tau} \mu(\tau) \left[ \frac{\pi(\tau)}{\mu(\tau)} \right]_0^b c \nabla \log \pi(\tau) \\ &= \nabla J_{\text{TOPR}}(\pi, 0) \\ &\quad - c \sum_{\tau} \mu(\tau) \frac{\pi(\tau)}{\mu(\tau)} \nabla \log \pi(\tau) \\ &\quad - c \sum_{\tau} \mu(\tau) \left( \left[ \frac{\pi(\tau)}{\mu(\tau)} \right]_0^b - \frac{\pi(\tau)}{\mu(\tau)} \right) \nabla \log \pi(\tau) \\ \nabla J_{\text{TOPR}}(\pi, c) &= \nabla J_{\text{TOPR}}(\pi, 0) + c \sum_{\tau} \mu(\tau) \left( \frac{\pi(\tau)}{\mu(\tau)} - \left[ \frac{\pi(\tau)}{\mu(\tau)} \right]_0^b \right) \nabla \log \pi(\tau) \end{aligned} \end{aligned}$$负基线的作用。假设一个负基线c。由于当 $π(τ) > bµ(τ)$ 时,$π(τ)[\frac{π(τ)}{µ(τ)}]_0^b$ 为正,附加项在这种情况下将减小π(τ)。因此,负基线将不鼓励π(τ)对于所有轨迹τ都高于bµ(τ)。从这个意义上说,它充当了一个更柔和的KL正则化器,只有当π与µ偏离太多时才改变π。
正基线的作用。或者,正基线将鼓励π变大,使策略更具确定性。请注意,这种效应完全是由于裁剪引起的,与Chung等人【6,Beyond variance reduction: Understanding the true impact of baselines on policy optimization,2021,International Conference on Machine Learning】观察到的由随机性引起的效应相反。
混合学习框架。虽然公式2被呈现为一个标准的RL目标,但它实际上融合了监督学习部分(对样本$x_j$的求和)和强化学习部分(对给定样本$x_j$的提示补全y的期望)。虽然我们讨论了y被采样的策略,但我们没有讨论使用哪个x的分布。RL框架提供了为每个问题采样不同数量轨迹的可能性,而不是像监督学习那样改变每个训练样本的权重。
损失均匀性与泛化。Duchi和Namkoong【10,Variance-based regularization with convex objectives,2019,Journal of Machine Learning Research】提出了一个依赖于训练样本损失经验方差的泛化界:训练样本之间更均匀的损失会导致更好的泛化误差。在我们的场景中,每个问题x都与不同的难度相关联:基础模型生成的正确补全y的比例。因此,为难题(那些正确补全很少的问题)生成更多补全是很自然的,因为这会鼓励模型在这些更难的例子上投入更多能力,从而减少所有例子之间损失的差距。只保留正确的补全,如STaR和其他流行方法所做的那样,恰恰相反:训练集主要由简单问题的补全组成,因为它们有更多的正例。这可能会扩大例子之间的性能差距。
基线对问题难度的加权。图9显示了在改变基线(即有效正样本比例)时,给予简单和困难问题的重要性。对于训练集中的每个问题,我们生成了128个解决方案,然后根据基础模型对这些问题的预期准确率创建了10个等间距的桶。然后,我们平均计算了特定桶中每个问题有多少个解决方案。为了考虑基线参数,我们给每个正确解决方案一个(1 − c)的权重,给每个不正确解决方案一个(1 + c)的权重。
观察结论。我们看到,随着c的增加(即有效正样本比例的减少),更多的(相对权重)被给予了困难的问题。TOPR的性能与图9中曲线的形状之间似乎存在相关性。