Reinforcement Learning via Self-Distillation

发表时间: 2026-01 · arXiv:2601.20802 (ETH Zürich, MIT, KTH, et al.)

文章标题:通过自蒸馏进行强化学习
作者/机构:Jonas Hübotter (苏黎世联邦理工学院), Frederike Lübeck (苏黎世联邦理工学院, 马克斯·普朗克智能系统研究所), Lejs Behric (苏黎世联邦理工学院), Anton Baumann (苏黎世联邦理工学院), Marco Bagatella (苏黎世联邦理工学院, 马克斯·普朗克智能系统研究所), Daniel Marta (苏黎世联邦理工学院), Ido Hakimi (苏黎世联邦理工学院), Idan Shenfeld (麻省理工学院), Thomas Kleine Buening (苏黎世联邦理工学院), Carlos Guestrin (斯坦福大学), Andreas Krause (苏黎世联邦理工学院)
代码链接https://github.com/lasgroup/SDPO

A1 主要贡献

本文旨在解决当前大型语言模型(LLM)强化学习后训练中的一个核心瓶颈:信用分配问题。现有的可验证奖励强化学习(RLVR)方法仅依赖于每次尝试的标量结果奖励(例如,成功或失败),这造成了严重的信息瓶颈,尤其是在所有尝试都失败(奖励为零)时,学习会停滞。

核心问题与研究目标
许多可验证的环境(如代码、数学)实际上能提供丰富的文本反馈,例如运行时错误或评测信息,这些反馈解释了尝试失败的原因。然而,现有RLVR方法未能有效利用这些信息。本文的形式化了这种环境为带丰富反馈的强化学习(Reinforcement Learning with Rich Feedback, RLRF),其核心研究目标是:如何在不需要外部强教师模型或显式奖励模型的情况下,将这些丰富的文本反馈转化为密集的学习信号。

创新点与主要贡献
为解决上述问题,本文提出了自蒸馏策略优化(Self-Distillation Policy Optimization, SDPO)算法。其核心思想是利用模型自身在获得反馈后进行“事后诸葛亮”式反思的能力。具体来说,SDPO将当前模型在接收到问题和反馈后的状态视为一个“自教师”,并将其“反馈知情”的下一词元预测分布蒸馏回原始策略(“学生”)中。通过这种方式,SDPO利用模型在上下文中识别自身错误的能力,将稀疏的奖励信号转化为密集的、词元级别的信用分配,而无需任何外部监督或额外的采样开销。

本文的主要贡献可以总结为以下三点:
1. 在标准RLVR环境中的有效性:在仅有标量奖励的环境中,SDPO将批次内成功的尝试作为对失败尝试的“隐式反馈”。实验表明,在科学推理和工具使用任务上,SDPO在样本效率和最终准确率上均优于强大的GRPO基线。此外,SDPO能学习到更简洁高效的推理方式。
2. 在RLRF环境中的显著优势:在提供丰富反馈的编程任务(LiveCodeBench v6)上,SDPO的性能远超GRPO,不仅最终准确率更高,收敛速度也快4倍。其优势随模型规模增长而愈发明显,表明自教学能力是一种随模型能力增强而涌现的现象。
3. 加速高难度任务的解决方案发现:在测试阶段,SDPO可被用于“测试时自蒸馏”,针对单个高难度问题进行特化训练。实验证明,对于那些基础模型成功率极低的二元奖励任务,SDPO发现解决方案的速度比best-of-k采样或多轮对话快3倍。


图1:在LiveCodeBench v6上使用Qwen3-8B模型,SDPO的表现显著优于改进版的GRPO。此外,SDPO用少于4倍的生成次数就达到了GRPO的最终准确率。Claude Sonnet 4是公开的LCBv6排行榜上最强的指令模型。阴影区域表示3个随机种子下的标准差。

A3 背景知识/关键Observation/设计原则

当前LLM强化学习的瓶颈。尽管深度强化学习通过经验迭代(行动、接收反馈、更新策略)解锁了仅靠静态监督难以获得的能力【82, Volodymyr Mnih et al., Human-level control through deep reinforcement learning, 2015, Nature; 105, David Silver et al., Mastering the game of go with deep neural networks and tree search, 2016, Nature; 106, David Silver et al., Mastering chess and shogi by self-play with a general reinforcement learning algorithm, 2017, arXiv; 8, Christopher Berner et al., Dota 2 with large scale deep reinforcement learning, 2019, arXiv】,并且这一范式在LLM的推理密集型任务中也取得了显著成功【45, Aaron Jaech et al., Openai o1 system card, 2024, arXiv; 35, Daya Guo et al., Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, arXiv; 51, Kimi et al., Kimi k1.5: Scaling reinforcement learning with llms, 2025, arXiv; 88, Team Olmo et al., Olmo 3, 2025, arXiv】,但主流的LLM后训练RL方法仍受限于信用分配的瓶颈。

RLVR与信用分配问题。目前大多数方法在可验证奖励的强化学习(RLVR)设定下运行:给定问题x,模型采样答案y,并获得一个标量奖励r(通常是二元的,如单元测试通过/失败)。现代策略梯度RLVR方法,如组相对策略优化(GRPO)【100, Zhihong Shao et al., Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv】,从这些稀疏的结果奖励中估计优势。然而,当一个组内的所有 rollout 都获得相同(通常是零)的奖励时,GRPO的优势会变为零,导致学习停滞。为了克服这种稀疏性,可以从强大的教师模型进行蒸馏【35, Daya Guo et al., Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, arXiv; 125, An Yang et al., Qwen3 technical report, 2025a, arXiv; 73, Kevin Lu & Thinking Machines Lab, On-policy distillation, 2025, Thinking Machines Lab; 34, Etash Guha et al., Openthoughts: Data recipes for reasoning models, 2026, ICLR】,但这在在线学习中通常不可行,因为目标是提升现有模型的能力上限。

RLRF:利用丰富反馈。本文认为,关键限制并非RL本身,而是标量结果奖励所施加的信息瓶颈。许多可验证环境除了标量奖励r之外,还提供丰富的标记化反馈,如运行时错误、失败的单元测试或LLM裁判的评估。这种反馈不仅揭示了rollout是否错误,还指出了错在哪里。我们将其形式化为带丰富反馈的强化学习(RLRF),并与RLVR进行对比。在RLRF中,反馈可以是智能体系统达到的任何状态的任何标记化表示。核心问题变为:如何在不依赖外部强教师监督的情况下,将丰富反馈转化为有效的信用分配?


图2:RLVR与RLRF设置的比较。在可验证奖励强化学习(RLVR)中,智能体从标量奖励r中学习,这通常通过掩盖底层环境状态而成为信息瓶颈。相比之下,带丰富反馈的强化学习(RLRF)利用标记化的反馈。这提供了比标量奖励丰富得多的信号,因为反馈可以包含奖励以及对状态的详细观察(例如来自代码环境的运行时错误或来自LLM裁判的反馈)。

核心观察:利用上下文学习进行自我修正。我们的出发点是观察到LLM已经拥有一种强大的利用反馈的机制:上下文学习(in-context learning)【9, Tom B. Brown et al., Language models are few-shot learners, 2020, arXiv; 121, Jason Wei et al., Chain-of-thought prompting elicits reasoning in large language models, 2022, NeurIPS】。当以反馈为条件时,同一个模型通常能识别出可能的错误并提出修正方案。一个常见的例子是在LeetCode等编程平台上,失败测试用例的摘要就是这种反馈(如图3所示)。许多近期工作利用此能力迭代生成修正【16, Lili Chen et al., Decision transformer: Reinforcement learning via sequence modeling, 2021a, NeurIPS; 76, Aman Madaan et al., Self-refine: Iterative refinement with self-feedback, 2023, NeurIPS; 104, Noah Shinn et al., Reflexion: Language agents with verbal reinforcement learning, 2023, NeurIPS; 128, Weiran Yao et al., Retroformer: Retrospective large language agents with policy gradient optimization, 2024, ICLR; 133, Mert Yuksekgonul et al., Optimizing generative ai by backpropagating language model feedback, 2025, Nature; 63, Yoonho Lee et al., Feedback descent: Open-ended text optimization via pairwise comparison, 2025, arXiv】。与这些工作不同,我们使用当前策略作为“自教师”,它不是采样一个新的响应,而是在收到丰富反馈后重新评估现有的rollout。将反馈包含在上下文中,会改变模型的下一词元分布,使自教师能够在特定词元上同意或不同意学生的原始选择,从而产生密集的、logit级别的信用分配。


图3:来自我们代码环境的反馈示例,灵感来源于LeetCode。附录中的清单4、5和6显示了在答案错误、内存错误和索引错误情况下的反馈示例。

自教师机制示例。例如,当提供图3中的反馈时,自教师可以识别出如何修改初始尝试以避免运行时错误。关键在于,这个机制不产生额外的采样开销:我们只需在自教师的反馈增强上下文中,重新计算原始尝试的对数概率。

A2 方法细节

2. SDPO: 自蒸馏策略优化

自教师的定义与核心思想。我们提出一种算法,利用当前策略的上下文学习能力来进行信用分配。我们的关键对象是自教师,即$\pi(\cdot | x, f)$,它指的是在给定问题$x$和丰富反馈$f$的情况下提示的当前策略(“学生”)。除了学生的原始尝试$y$之外,$f$可以包含两种关键反馈:任何环境输出(如代码环境的运行时错误)和在同一rollout组中用另一次尝试已解决$x$时得到的样本解决方案。如前所述,自教师$\pi_\theta(\cdot | x, f)$应该比学生$\pi_\theta(\cdot | x)$具有更高的准确性,因为它在上下文中看到了额外的信息。这引出了我们的观察:我们可以让同一个策略扮演两个不同的角色:作为进行初次尝试的学生,以及在事后根据反馈判断行为价值的教师。

SDPO算法与损失函数。我们引入自蒸馏策略优化(SDPO),它通过重复地将自教师蒸馏到学生中。给定一个问题$x$,我们首先从学生$\pi_\theta$采样rollouts并获得相应的环境反馈。然后,我们使用KL散度,$KL(p\|q) = \sum_i p(i) \log p(i)/q(i)$,作为学生和教师下一词元分布的距离度量,并优化一个标准的logit蒸馏损失:

其中,stopgrad算子阻止梯度流向教师,从而防止其退化到学生状态并忽略反馈$f$。教师的直观作用是,基于反馈$f$通过反思来确定学生原始尝试$y$的错误之处以及如何修正。图4展示了一个使用Qwen3-8B作为学生和自教师的自教学示例。我们在算法1中总结了SDPO,并在表2中展示了教师的重提示模板。


图4:使用Qwen3-8B的自教学示例。答案是在看到反馈之前由模型生成的。然后,我们在看到反馈后,用自教师重新评估原始尝试的对数概率。我们展示了每个词元的log(P(自教师)/P(学生)),红色表示负值(自教师不同意),白色表示值在零附近。值得注意的是,在这个例子中,Qwen3-8B通过反思识别了错误,而没有明确的解决方案。此外,激活是稀疏的,识别出错误发生的位置,并适应学生的响应分布。

SDPO算法流程

算法 1 SDPO
输入: 语言模型 πθ; 包含问题 x 的数据集; 每个问题的 rollout 数量 G; 用于获取尝试反馈的环境。
1: repeat
2:   从数据集中采样问题 x。
3:   采样响应: {yi}_(i=1)^G ∼ πθ(· | x)。
4:   评估响应以获得反馈 fi。
   ▷ 自蒸馏:
5:   计算自教师的对数概率 log πθ(yi,t | x, fi, yi,<t)。
6:   在 LSDPO(θ) 上使用梯度下降更新 θ。
7: until converged

命题2.1。$L_{SDPO}$的梯度为:

自教师重提示模板

表1:自蒸馏与LLM后训练的其他方法的比较。


表2:自教师的模板。prompt被替换为问题。由学生先前生成的样本解决方案被替换为successful_previous_rollout(如果该问题有可用方案;否则该段落被跳过)。environment_output被替换为模型原始尝试的环境输出(例如,见图3)(如果尝试不成功且没有解决方案;否则该段落被跳过)。如果模型的原始尝试成功,则此尝试作为正确解决方案传递。original_response被替换为模型的原始尝试,以便在自教师下重新评估其对数概率。

2.1 与RLVR的比较

SDPO作为策略梯度方法。请注意,SDPO的梯度是一个(取反的)logit级别的策略梯度,其中优势是使用自教师来估计的。因此,我们可以重用标准的RLVR实现,只需替换掉优势即可。让$y_i$为问题$x$的大小为$G$的rollout组中的第$i$个rollout,那么比较GRPO和SDPO,我们有:

优势估计的差异。GRPO的优势仅应用于采样到的词元$y_{i,t}$,并且在一次rollout $y_i$内部是恒定的。相比之下,SDPO的优势仅在学生和教师完全一致的词元上为零。对于在教师看来更可能的词元,SDPO的优势为正;对于在教师看来更不可能的词元,SDPO的优势为负。因此,SDPO可以看作是标准RLVR方法的直接扩展,体现在两个方面:
1. 从1比特反馈扩展到允许任意词元序列作为反馈。
2. 利用这种丰富反馈来估计密集的logit级别优势。

扩展至离策略(Off-Policy)训练。与RLVR方法的紧密联系也使得将方程(2)中的SDPO梯度通过PPO式的裁剪重要性采样【99, John Schulman et al., Proximal policy optimization algorithms, 2017, arXiv】直接扩展到离策略数据成为可能,详见附录A.4。

2.2 计算时间与内存

计算开销。与GRPO相比,SDPO唯一的计算开销是额外计算自教师的对数概率,这可以被有效并行化,并且比顺序生成快得多。图5比较了SDPO和GRPO的计算时间。正如预期的那样,SDPO的计算开销相对较小。在这里,我们使用大小为2的微批次(micro batch size);通过使用更大的微批次,可以进一步减少计算时间。

内存优化。朴素地计算学生和教师之间的KL散度需要在内存中保留两个模型的完整logits。为了避免这种情况,我们通过执行top-K蒸馏来近似SDPO损失中的KL散度(即,只计算学生的前K个logits和教师对应的logits,外加一个捕捉尾部概率的项;参见附录A.3)。通过合理选择K(例如,K=100),这几乎可以避免任何内存开销,同时捕获大部分信息。


图5:SDPO与GRPO每步的时间(实线:不带代码环境,浅色:带代码环境)。

2.3 稳定性改进

稳定训练的修改。我们发现两个实际的修改显著增强了SDPO的训练稳定性。首先,我们采用了一个正则化的自教师,通过学生参数的指数移动平均(EMA)或通过将当前教师与初始教师进行插值来实现(参见附录A.2)。如下文详述,这两种策略都能有效稳定学习。其次,我们采用对称的Jensen-Shannon散度作为蒸馏损失;这种形式已被证明可以提高从外部教师进行在线策略蒸馏的稳定性【1, Rishabh Agarwal et al., On-policy distillation of language models: Learning from self-generated mistakes, 2024, ICLR】。

A4 实验环境

  • 数据集

    • 科学问答(无丰富反馈): 使用来自SciKnowEval【28, Kehua Feng et al., Sciknoweval: Evaluating multi-level scientific knowledge of large language models, 2024a, arXiv】的L3推理子集,涵盖化学、物理、生物和材料科学四个领域的本科水平科学推理问题。
    • 工具使用(无丰富反馈): 使用ToolAlpaca【113, Qiaoyu Tang et al., Toolalpaca: Generalized tool learning for language models with 3000 simulated cases, 2023, arXiv】,任务是将工具API规范和用户请求映射到正确的工具调用。
    • 编程(有丰富反馈): 使用LiveCodeBench v6 (LCBv6)【46, Naman Jain et al., Livecodebench: Holistic and contamination free evaluation of large language models for code, 2025, ICLR】中的竞赛风格编程问题,环境提供类似LeetCode的反馈(如运行时错误、失败的单元测试)。
    • 遗忘评估(Holdout任务): 使用IFEval【138, Jeffrey Zhou et al., Instruction-following evaluation for large language models, 2023, arXiv】(测试遵循精确格式指令的能力)、ArenaHard-v2【68, Tianle Li et al., From crowdsourced data to high-quality benchmarks: Arenahard and benchbuilder pipeline, 2025a, ICML】(LLM评判的真实世界指令遵循提示)和MMLU-Pro【120, Yubo Wang et al., Mmlu-pro: A more robust and challenging multi-task language understanding benchmark, 2024b, NeurIPS】(测试广泛的多任务知识和推理)。
    • 难题发现: 使用LCBv6中对Qwen3-8B模型极具挑战性的问题子集,分为“困难”(pass@64 < 0.5)和“非常困难”(pass@64 < 0.03)两组。
  • 模型架构

    • Qwen3-8B【125, An Yang et al., Qwen3 technical report, 2025a, arXiv】
    • Olmo3-7B-Instruct【88, Team Olmo et al., Olmo 3, 2025, arXiv】
    • Qwen3模型家族(包括0.6B、8B等尺寸)【125, An Yang et al., Qwen3 technical report, 2025a, arXiv】
    • Qwen2.5-Instruct模型家族(包括1.5B、7B、8B等尺寸)【92, Qwen et al., Qwen2.5 technical report, 2024, arXiv】
  • 硬件配置

    • 所有实验均在配备4个NVIDIA GH200 GPU的单节点上进行,总计378GB VRAM。
  • 软件配置

    • 实现库: 基于verl库【103, Guangming Sheng et al., Hybridflow: A flexible and efficient rlhf framework, 2025, EuroSys】。
    • 分布式训练: 使用PyTorch Fully Sharded Data Parallel (FSDP2)。
    • 推理: 使用vLLM【53, Woosuk Kwon et al., Efficient memory management for large language model serving with pagedattention, 2023, PSIGOPS】进行高效的批量推理。
    • 环境: NVIDIA PyTorch容器 nvcr.io/nvidia/pytorch:25.02-py3,CUDA 12.8,PyTorch v2.7.0。

A4 实验结果

3. 在无丰富环境反馈下的学习

实验设置:在仅提供标量奖励的标准RLVR环境中评估SDPO。SDPO将当前批次中成功的尝试作为对同一问题失败尝试的“反馈”。任务包括科学问答和工具使用,使用Qwen3-8B和Olmo3-7B-Instruct模型。基线是一个集成了近期改进的强大GRPO变体。

结果

  • 性能优越:如表3所示,SDPO在几乎所有实验中都优于GRPO,并且学习速度显著更快。在多个案例中,SDPO训练1小时的性能接近GRPO训练5小时的性能。
  • 显著加速:在化学任务上,使用Olmo3-7B-Instruct的SDPO仅用50分钟就达到了GRPO 5小时的准确率,实现了6倍的加速,并且最终准确率高出10个百分点以上(图6左)。
  • 结论1:SDPO无需修改现有RLVR环境即可有效学习推理,并在多个案例中显著优于GRPO。


表3:SDPO和GRPO在推理相关基准上的比较。我们报告了在1小时和5小时墙钟训练时间内达到的最高avg@16。SDPO和on-policy GRPO每个生成批次执行一个梯度步,而GRPO执行4个off-policy小批量步。我们根据5小时准确率选择SDPO和基线的最佳超参数。每个运行在具有4个NVIDIA GH200 GPU的节点上执行。包括初始化和验证,每次运行大约需要6小时。


图6:Olmo3-7B-Instruct在化学任务上的训练过程。我们报告了每个问题16个样本的平均准确率和5个步骤的响应长度滚动平均值。我们报告了针对该模型和任务具有最佳超参数的GRPO。我们为每个配置运行3个种子,并以阴影区域报告标准误差。

自蒸馏学习简洁推理
- SDPO生成的响应比GRPO短得多(平均短3倍以上),同时准确率更高(附录表8)。在化学任务中,响应长度甚至减少了11倍(图6右)。
- 定性分析(图7)表明,GRPO的冗长响应常包含“Hmm”、“Wait”等填充词和循环逻辑,而SDPO的推理过程简洁、直击要点。这得益于SDPO的密集信用分配机制,它为每个词元预测分配特定优势,从而产生稀疏的优势信号。


图7:GRPO和SDPO在训练50步后对问题的响应示例。正确答案是C。GRPO的答案包含大量重复和循环推理,而SDPO的答案避免了这些问题,长度缩短了7倍以上。

4. 在有丰富环境反馈下的学习

实验设置:在LiveCodeBench v6的编程任务上进行评估,环境提供运行时错误等丰富反馈。使用Qwen3-8B模型,基线为GRPO。

结果
- 性能大幅提升:SDPO的最终准确率(48.8%)显著高于GRPO(41.2%),并超过了LCBv6排行榜上最强的指令模型(图1)。SDPO达到GRPO最终准确率所需的生成次数减少了4倍。
- 对中高难度问题提升更明显:SDPO在解决中等和困难问题上比GRPO的优势更突出(附录图15)。
- 自蒸馏受益于更强模型(结论2):SDPO的优势随模型规模的增大而增长(图8)。在较弱的模型上,SDPO可能表现不如GRPO(附录图17),这表明自教师进行准确反思的能力是随模型规模出现的涌现现象。
- 密集信用分配是关键:消融实验(图10左)表明,logit级别的密集信用分配是SDPO性能增益的主要来源。即使是序列级别的SDPO(利用丰富反馈但无密集分配),也优于GRPO,证明了RLRF设置本身的价值。
- 自教师在训练中进步:自教师的准确率在训练过程中不断提升,最终学生的表现超过了初始教师,实现了真正的自举(图10右)。使用正则化的教师(如EMA或信任区域)对于稳定训练至关重要(表4)。
- 避免灾难性遗忘:与GRPO一样,在策略(on-policy)的SDPO在学习新任务(LCBv6)的同时,能很好地保持在其他保留任务(IFEval, ArenaHard-v2, MMLU-Pro)上的性能,优于GRPO和离策略的SFT基线(表5)。
- 与GRPO的结合:将SDPO和GRPO的优势结合(SDPO+GRPO),对于较弱的模型能稳定训练并提升性能,但对于较强的模型可能会因为GRPO的稀疏信号而产生负面影响(图11)。
- 反馈类型分析:环境输出(如错误信息)和样本解决方案(来自同一批次内的成功尝试)是互补且信息量大的反馈来源。朴素地包含学生原始尝试会使教师产生偏见,减少探索(表6)。


图8:SDPO随模型大小提升。我们比较了SDPO和GRPO在训练步骤80时,在Qwen3不同模型大小下的最终LCBv6验证准确率。SDPO教师执行准确反思的能力似乎是随规模涌现的现象。


图10:左:RLRF中的丰富反馈和SDPO的密集信用分配是互补的。右:自教师在训练过程中得到改善。

5. 通过测试时自蒸馏解决难题

实验设置:在测试时,针对单个高难度二元奖励问题,通过SDPO不断更新模型以加速发现解决方案。评估指标为discovery@k(在k次尝试内发现解决方案的概率)。基线为best-of-k采样和多轮对话采样。

结果
- 显著加速发现(结论3):在“非常困难”和“困难”问题上,SDPO的discovery@k曲线均显著优于基线(图13)。例如,为达到22%的发现概率,SDPO所需的生成次数比基线少约3倍。
- 解决基线无法解决的问题:SDPO能解决所有基线能解决的问题,并额外解决了一个基线在2750次尝试内都无法解决的难题(Q3)。
- 初始教师能力有限:在这些难题上,初始自教师的准确率几乎为零,表明单轮的上下文反馈不足以解决问题。然而,SDPO通过迭代优化,仍能成功找到解,证明了其自举能力。


图13:测试时自蒸馏能解决基础模型和多轮对话都无法解决的LiveCodeBench问题。左:非常困难的问题。右:困难的问题。SDPO在几乎所有生成预算下都达到了更高的discovery@k率。

A7 补充细节

6.1 针对LLM的强化学习

RLVR方法。近期的研究通过在多样化任务上进行大规模RL训练,显著提升了LLM的通用推理能力【35, Daya Guo et al., Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, arXiv; 51, Kimi et al., Kimi k1.5: Scaling reinforcement learning with llms, 2025, arXiv; 88, Team Olmo et al., Olmo 3, 2025, arXiv; 45, Aaron Jaech et al., Openai o1 system card, 2024, arXiv; 54, Nathan Lambert et al., Tulu 3: Pushing frontiers in open language model post-training, 2025, COLM】。这些进展主要由RLVR方法驱动,它们使用奖励的蒙特卡洛估计,例如STaR或GRPO【136, Eric Zelikman et al., Star: Bootstrapping reasoning with reasoning, 2022, NeurIPS; 100, Zhihong Shao et al., Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv】,类似于经典的REINFORCE算法【122, Ronald J Williams, Simple statistical gradient-following algorithms for connectionist reinforcement learning, 1992, Machine learning】。虽然一些传统的RLVR算法依赖于学习独立的价值网络【99, John Schulman et al., Proximal policy optimization algorithms, 2017, arXiv】,但它们会带来巨大的内存成本,并保留了标量奖励的信息瓶颈。

过程奖励模型(PRM)。在RLVR设定中,结果奖励通常只在序列结束时给出。为了改善信用分配,一些工作学习了所谓的“过程奖励模型”(PRMs),用于估计序列中每一步的奖励【70, Hunter Lightman et al., Let’s verify step by step, 2023, ICLR; 118, Peiyi Wang et al., Math-shepherd: Verify and reinforce llms step-by-step without human annotations, 2024a, ACL; 101, Amrith Setlur et al., Rewarding progress: Scaling automated process verifiers for llm reasoning, 2025, ICLR】。与我们的RLRF设定不同,PRMs通常在标量奖励上进行训练,无论是基于中间状态的价值估计还是结果奖励【21, Ganqu Cui et al., Process reinforcement through implicit rewards, 2025, arXiv】。与SDPO中的自教师不同,PRMs是与学生分离的独立模型,引入了显著的内存开销。我们的工作表明,如果给予丰富反馈,每个语言模型通过反思本身就是一个隐式的PRM。

与自举方法的关联。从概念上讲,我们的工作与“自举你自己的潜在表示”(BYOL)【33, Jean-Bastien Grill et al., Bootstrap your own latent-a new approach to self-supervised learning, 2020, NeurIPS】和“专家迭代”【5, Thomas Anthony, Zheng Tian, and David Barber, Thinking fast and slow with deep learning and tree search, 2017, NeurIPS】相关,其中学生通过反复模仿一个改进版的自己(称为“专家”)来进行自举。通常,专家将学生与测试时搜索(如树搜索【5, Thomas Anthony, Zheng Tian, and David Barber, Thinking fast and slow with deep learning and tree search, 2017, NeurIPS】或多数投票【141, Yuxin Zuo et al., Ttrl: Test-time reinforcement learning, 2025, NeurIPS】)相结合。相比之下,SDPO利用学生从上下文中提供的丰富反馈中学习的能力,这与BYOL中的“增强视图”有关。

6.2 从丰富反馈和通过反思学习

将反馈转化为奖励。除了标量结果奖励,近期工作利用丰富的执行或语言反馈来指导生成【31, Jonas Gehring et al., Rlef: Grounding code llms in execution feedback with reinforcement learning, 2025, ICML; 29, Xidong Feng et al., Natural language reinforcement learning, 2024b, arXiv; 133, Mert Yuksekgonul et al., Optimizing generative ai by backpropagating language model feedback, 2025, Nature】。一个主要研究方向是将语言反馈转化为RL的奖励函数。这通常通过使用外部冻结模型将反馈映射到离散的词元级奖励【117, Hanyang Wang et al., Text2grad: Reinforcement learning from natural language feedback, 2026, ICLR】,或利用强大的外部LLM来显式构建状态级奖励函数【32, Prasoon Goyal, Scott Niekum, and Raymond J Mooney, Using natural language for reward shaping in reinforcement learning, 2019, IJCAI; 124, Tianbao Xie et al., Text2reward: Reward shaping with language models for reinforcement learning, 2024, ICLR; 114, Belen Martin Urcelay, Andreas Krause, and Giorgia Ramponi, From words to rewards: Leveraging natural language for reinforcement learning, 2026, TMLR】。

无显式奖励的学习。或者,可以在没有显式奖励建模的情况下利用反馈。一些方法专注于上下文内的改进,而不将此过程集成到RL优化循环中【16, Lili Chen et al., Decision transformer: Reinforcement learning via sequence modeling, 2021a, NeurIPS; 76, Aman Madaan et al., Self-refine: Iterative refinement with self-feedback, 2023, NeurIPS; 104, Noah Shinn et al., Reflexion: Language agents with verbal reinforcement learning, 2023, NeurIPS; 128, Weiran Yao et al., Retroformer: Retrospective large language agents with policy gradient optimization, 2024, ICLR; 133, Mert Yuksekgonul et al., Optimizing generative ai by backpropagating language model feedback, 2025, Nature; 63, Yoonho Lee et al., Feedback descent: Open-ended text optimization via pairwise comparison, 2025, arXiv】。其他方法通过将反馈前后的响应配对,手动整理偏好数据集,以使用直接偏好优化进行训练【110, Moritz Stephan et al., Rlvf: Learning from verbal feedback without overgeneralization, 2024, ICML; 62, Kyungjae Lee et al., Reinforcement learning from reflective feedback (rlrf): Aligning and improving llms via fine-grained self-reflection, 2024, arXiv】,但这需要额外的生成,且缺乏SDPO的直接信用分配。最近的各种工作从已知答案中自举思维轨迹,将这些答案用作丰富反馈【140, Xiangxin Zhou et al., Reinforcing general reasoning without verifiers, 2026, ICLR; 38, Ali Hatamizadeh et al., Rlp: Reinforcement as a pretraining objective, 2026, ICLR; 138, Kai Zhang et al., Agent learning via early experience, 2025, arXiv】。

反馈条件策略。最近几项工作的核心对象是反馈条件策略$\pi_\theta(y | x, f)$,它学习生成导致反馈$f$的答案$y$【71, Hao Liu, Carmelo Sferrazza, and Pieter Abbeel, Chain of hindsight aligns language models with feedback, 2023, arXiv; 139, Tianjun Zhang et al., The wisdom of hindsight makes language models better instruction followers, 2023, ICML; 75, Renjie Luo et al., Language models can learn from verbal feedback without scalar rewards, 2025, arXiv】,通常通过监督目标实现。这些方法背后的思想是部署一个以期望(即正面)反馈为条件的策略。这种方法在概念上与目标条件RL【96, Tom Schaul, Daniel Horgan, Karol Gregor, and David Silver, Universal value function approximators, 2015, ICML; 69, Grace Liu, Michael Tang, and Benjamin Eysenbach, A single goal is all you need: Skills and exploration emerge from contrastive rl without rewards, demonstrations, or subgoals, 2025a, ICLR】相关,后者可以通过目标重标记从负面示例中学习【4, Marcin Andrychowicz et al., Hindsight experience replay, 2017, NeurIPS】。反馈条件策略将反馈视为一个目标,而RLRF将反馈视为一个可用于确定目标$x$是否实现的状态。与SDPO不同,这些方法不使用反馈对负面轨迹进行信用分配,而是将其作为目标重标记的数据转换。

6.3 蒸馏

标准蒸馏。当有强大的教师模型可用时,蒸馏通常被用作监督微调(SFT)的替代方案。蒸馏通过训练学生模仿教师的输出分布或中间表示来转移能力【39, Geoffrey Hinton, Oriol Vinyals, and Jeff Dean, Distilling the knowledge in a neural network, 2015, arXiv; 94, Adriana Romero et al., Fitnets: Hints for thin deep nets, 2015, ICLR; 50, Yoon Kim and Alexander M Rush, Sequence-level knowledge distillation, 2016, EMNLP; 98, Victor Sanh et al., Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter, 2019, arXiv; 123, Qizhe Xie et al., Self-training with noisy student improves imagenet classification, 2020, CVPR】。

在线策略蒸馏。虽然蒸馏通常在固定的离策略数据集上进行,但为了解决训练和推理之间的分布偏移问题,近期工作探索了在线策略蒸馏,其中学生从外部教师对其自身生成提供的反馈中学习【1, Rishabh Agarwal et al., On-policy distillation of language models: Learning from self-generated mistakes, 2024, ICLR; 33, Yuxian Gu, Li Dong, Furu Wei, and Minlie Huang, Minillm: Knowledge distillation of large language models, 2024; 125, An Yang et al., Qwen3 technical report, 2025a, arXiv; 73, Kevin Lu & Thinking Machines Lab, On-policy distillation, 2025, Thinking Machines Lab】。这减轻了训练-测试不匹配问题,与早期关于在线模仿学习的工作密切相关【95, Stéphane Ross, Geoffrey Gordon, and Drew Bagnell, A reduction of imitation learning and structured prediction to no-regret online learning, 2011, AISTATS】。

6.4 自蒸馏

自蒸馏的概念与应用。自蒸馏的概念最早由Snell等人【107, Charlie Snell, Dan Klein, and Ruiqi Zhong, Learning by distilling context, 2022, arXiv】在类似于监督学习的设定中提出,他们引入了从提供额外上下文的模型中采样,并训练同一模型在没有该上下文的情况下模仿这些预测的思想。这种机制已被证明在将行为【6, Yuntao Bai et al., Constitutional ai: Harmlessness from ai feedback, 2022, arXiv; 19, Eunbi Choi et al., Prompt injection: Parameterization of fixed inputs, 2022, arXiv; 126, Zhaorui Yang et al., Self-distillation bridges distribution gap in language model fine-tuning, 2024, ACL; 127, Wenkai Yang et al., Distilling rule-based knowledge into large language models, 2025b, COLING】和事实信息【27, Sabri Eyuboglu et al., Cartridges: Lightweight and general-purpose long context representations via self-study, 2026, ICLR; 52, Kalle Kujanpää et al., Efficient knowledge injection in LLMs via self-distillation, 2025, TMLR; 10, Bowen Cao, Deng Cai, and Wai Lam, Infiniteicl: Breaking the limit of context window size via long short-term memory transformation, 2025a, ACL】压缩到模型权重中是有效的。

从环境反馈中学习的自蒸馏。除了将固定上下文压缩到模型权重中,近期工作已使用自蒸馏从环境反馈中学习【97, Jérémy Scheurer et al., Training language models with language feedback at scale, 2023, arXiv; 24, Zi-Yi Dou et al., Re-rest: Reflection-reinforced self-training for language agents, 2024, EMNLP; 139, Ruiyang Zhou, Shuozhe Li, Amy Zhang, and Liu Leqi, Expo: Unlocking hard reasoning with self-explanation-guided reinforcement learning, 2025, NeurIPS; 77, Purbesh Mitra and Sennur Ulukus, Semantic soft bootstrapping: Long context reasoning in llms without reinforcement learning, 2025, arXiv; 108, Yuda Song et al., Expanding the capabilities of reinforcement learning via text feedback, 2026, arXiv】。这些方法使用离策略自蒸馏目标,我们发现其性能远低于SDPO的在线策略学习。离策略自蒸馏在教师的生成上训练学生,而SDPO训练学生避免其自身生成中的错误。在同期工作中,Chen等人【18, Wentse Chen et al., Retrospective in-context learning for temporal credit assignment with large language models, 2025c, NeurIPS】将在线策略自蒸馏应用于网格世界设定,其中反馈是标量奖励,自教师中的反思阶段诊断可能的错误,显示出与学习价值网络进行优势估计相比,信用分配得到了改善。其他同期工作在固定的专家演示数据集上研究SDPO,没有在线环境交互【102, Idan Shenfeld, Mehul Damani, Jonas Hübotter, and Pulkit Agrawal, Self-distillation enables continual learning, 2026a, arXiv; 140, Andrew Zhao et al., Absolute zero: Reinforced self-play reasoning with zero data, 2025, NeurIPS】。

A5 结论

结论
本文引入了带丰富反馈的强化学习(RLRF)范式,其中环境提供超越标量奖励的标记化反馈,并论证了这消除了RLVR的一个关键信息瓶颈。我们提出了自蒸馏策略优化(SDPO),它使用当前策略作为反馈条件的自教师,并将其修正后的对数概率蒸馏到学生中。这利用了模型从上下文中学习以进行密集信用分配的能力。我们进一步证明,SDPO可以作为对标准RLVR流水线的最小化、即插即用的修改来实现。

经验上,SDPO在推理任务上表现出优于GRPO的样本效率和墙钟收敛速度,即使在没有丰富反馈的标准RLVR环境中训练也是如此。SDPO的增益随模型规模的增长而增长,表明自我修正的能力随模型的上下文学习能力而扩展。此外,我们表明,在测试时对单个困难的二元奖励任务执行SDPO,相比于强大的基线,加速了解决方案的发现。

SDPO使得从丰富反馈中学习的方式更接近人类认知:利用精确的结果而非仅仅是二元奖励。通过让模型回顾性地确定它应该如何行动,我们证明了语言模型可以将多样化的标记化反馈转化为有效的自监督。

局限性
我们的研究结果表明,SDPO的性能取决于模型的上下文学习能力,这表明SDPO主要适用于RL训练更强的基础模型,而在较弱的模型上可能表现不如GRPO。此外,性能取决于环境反馈的质量。如果环境提供无信息或误导性的反馈,模型可能无法通过SDPO从中学习。最后,与GRPO相比,SDPO在计算回顾模型的对数概率方面增加了少量计算开销。虽然这通常可以忽略不计,但对于生成长度较短的较小模型,这可能是一个较大的开销,因为其生成时间相对较短。

未来工作
我们的工作为未来的研究指出了几个令人兴奋的方向:
- 长时程和智能体设置:当轨迹很长或暴露有关中间状态的信息时,RLRF尤其具有吸引力。在智能体环境中评估SDPO是自然的下一步。
- 大规模训练动态:除了我们在LiveCodeBench上的评估,将SDPO扩展到大规模多任务RL训练运行,并进一步研究其与前沿基础模型的扩展属性将特别有趣。
- 超越可验证奖励:虽然我们专注于可验证的代码生成,但许多任务提供文本反馈而没有地面真实验证器。研究SDPO的反思机制是否能改善开放式文本生成或连续奖励任务中的对齐仍然是一个开放的经验问题。
- 推理中的行为差异:我们观察到SDPO诱导的推理模式与GRPO有质的不同,特别是避免了后者的冗长和肤浅推理的倾向。未来的工作应系统地研究各个方面,如重提示模板,如何影响行为。

A6 附录

A. SDPO的实现

图14中的伪代码概述了SDPO的实现:


图14:标准RL训练流程中SDPO的伪代码。此处省略了如附录A.3所述的对学生和教师的top-K对数概率进行过滤(包括尾部项)的步骤。此外,我们省略了任何用于校正离策略数据的重要性采样权重。reprompt修改批次以包含教师上下文(即丰富反馈)。divergence实现任何逐词元的散度,如反向KL、前向KL或Jensen-Shannon。

以下,我们提供更多细节:
- 我们实现中使用的梯度估计器(附录A.1)
- 教师正则化(附录A.2)
- 为节省GPU内存而使用top-K logits近似logit蒸馏(附录A.3)
- 将PPO风格的策略梯度算法推广到logit级优势(附录A.4)

为了明确自教师的符号,我们接下来使用$q_\theta(\cdot | x, f) := \pi_\theta(\cdot | \text{reprompt}(x, f))$。这里,reprompt表示自教师的重提示模板。

A.1 梯度估计器

两种梯度估计器。本节我们讨论当前策略$\pi_\theta(y | x)$和教师策略$q_\theta(y | x, f)$之间KL散度的两种可能的梯度估计器。

逐词元估计器(Per-token estimator)。推导方程(1)中定义的SDPO损失的梯度:

得到以下估计器(详细证明见附录B.1),它对应于每个词元处KL散度的梯度之和:

这对应于命题2.1中提出的估计器。该梯度估计器有效地假设生成$y$的采样分布是固定的。

序列级估计器(Sequence-level estimator)。另一种自蒸馏目标是最小化学生和自教师之间的序列级KL散度,即:

其中$s_t = (x, y_{<t})$是步骤$t$的前缀(“状态”),$\Pi$表示策略$\pi_\theta$下的前缀分布。估计该目标的梯度还考虑了$y_t$的选择如何影响未来的状态$y_{>t}$(由于对$\Pi_\theta$的额外依赖)。Amini等人【3, Afra Amini, Tim Vieira, and Ryan Cotterell, Better estimation of the kullback–leibler divergence between language models, 2025, NeurIPS】表明,相应的梯度估计器由下式给出:

序列级梯度的附加项捕获了前缀如何影响未来词元的自蒸馏散度。我们也实验了这种序列级梯度估计器,但相对于其增加的复杂性,并未发现可测量的增益。

A.2 正则化教师

稳定训练。与标准蒸馏不同,SDPO中的教师在训练过程中会发生变化。这种自举使得教师能够改进,但也可能导致训练不稳定。为了稳定训练,我们试图防止教师$q$迅速偏离初始教师$q_{\theta_{ref}}$。我们可以通过对$q$施加显式的信任区域约束来实现这一点【98, John Schulman, Sergey Levine, Pieter Abbeel, Michael Jordan, and Philipp Moritz, Trust region policy optimization, 2015, ICML; 90, Xue Bin Peng, Aviral Kumar, Grace Zhang, and Sergey Levine, Advantage-weighted regression: Simple and scalable off-policy reinforcement learning, 2019, arXiv】,即:

这个信任区域可以通过两种方式实现:
1. 显式信任区域:我们可以将教师定义为在满足信任区域约束的同时,最接近$q_\theta$的策略。这个教师可以表示为:
![](images/be40c97471ea349ac22ca5d5c1af7fc5623bccd