Tricks or Traps? A Deep Dive into RL for LLM Reasoning

发表时间: 2025-08 · arXiv:2508.08221 (Alibaba / HKUST / NJU / PKU / Mila)

文章标题：技巧还是陷阱？深入探讨用于LLM推理的强化学习
作者/机构：Zihe Liu, Jiashun Liu, Yancheng He, Weixun Wang, Jiaheng Liu, Ling Pan, Xinyu Hu, Shaopan Xiong, Ju Huang, Jian Hu, Shengyi Huang, Johan Obando-Ceron, Siran Yang, Jiamang Wang, Wenbo Su, Bo Zheng
αAlibaba Group ♡ Beijing Jiaotong University ⋄ Hong Kong University of Science and Technology Ω Nanjing University ¶ Peking University ♣ OpenRLHF ‡ CleanRL Ψ Mila

A1 主要贡献（总结）

本文旨在系统性地回顾和评估用于大型语言模型（LLM）推理的强化学习（RL）技术，以解决当前研究领域中存在的指导方针缺失、机制理解碎片化以及因实验设置不一致导致的结论冲突等问题。

核心问题与研究目标：
近年来，用于LLM推理的强化学习（RL4LLM）领域发展迅速，涌现了大量算法创新和应用研究。然而，这种快速发展也带来了诸多挑战：
1. 缺乏标准化指南：对于如何应用各种RL技术和技巧，没有统一的指导方针。
2. 机制理解不足：对这些技术背后的工作原理缺乏深入分析。
3. 结论相互矛盾：由于不同的研究采用了不一致的实验设置、训练数据和模型初始化，导致对同一问题的解决方案相互矛盾（例如，GRPO与REINFORCE++在归一化策略上的分歧），给实践者在技术选型时带来了困惑。
4. 技术组合复杂：众多看似正交的技术（如归一化、裁剪、过滤等）使得在特定场景下找到有效组合变得极具挑战性。

针对这些问题，本文的核心目标是：通过在一个统一的开源框架中进行严格的复现和隔离评估，系统性地梳理广泛使用的RL技术，分析其内部机制、适用场景和核心原则，从而为实践者提供清晰的技术选型指南，并探索一种简单而通用的技术组合来提升策略优化效果。

主要创新与贡献：
本文通过在不同难度的数据集、不同规模和类型的模型上进行细粒度实验，得出了以下核心贡献：
1. 归一化策略：群体级别（Group-level）的归一化在各种奖励设置下都表现出稳健的效率；而批次级别（Batch-level）的归一化在奖励规模较大时能提供更稳定的改进。
2. 稳健的归一化组合：结合群体级别的均值和批次级别的标准差可以实现更稳健的归一化效果。
3. 裁剪策略：对于已对齐（aligned）的模型，使用较高的裁剪上界（Clip Higher）能促进高质量的探索。
4. 裁剪的“缩放定律”：在小尺寸模型上，性能与裁剪上界之间似乎存在一种“缩放定律”。
5. 损失聚合策略：与序列级损失聚合相比，令牌级（Token-level）聚合对基础（base）模型有效，但对已对齐模型的改进有限。
6. 过长过滤策略：对于中短长度的推理任务，过长过滤（Overlong filtering）能提升准确性和清晰度，但对长尾推理任务的益处有限。
7. 精简的PPO组合（Lite PPO）：本文证明，仅使用两种技术——优势归一化（群体均值、批次标准差）和令牌级损失聚合——便可以解锁无评论家（critic-free）策略在使用普通PPO损失时的学习能力，其性能超越了GRPO和DAPO等主流算法。

图1: 左图：RL优化技术激增，加上多样化的初始模型和数据，为实际应用带来了障碍。右图：我们通过剖析广泛使用的技巧的内部机制，建立了详细的应用指南，并引入了Lite PPO，这是一个极简的双技术组合，它能增强无评论家策略在使用普通PPO损失时的学习能力。平均准确率是在六个数学基准测试中计算得出的。

A3 背景知识/关键Observation/设计原则（缩写）

2.1 近端策略优化 (PPO)

PPO算法基础。近端策略优化（PPO）【11, Proximal Policy Optimization Algorithms, 2017, CoRR, http://arxiv.org/abs/1707.06347】是一种广泛应用的行动者-评论家（actor-critic）算法，基于策略梯度框架。它通过优化一个裁剪的代理目标函数来限制新旧策略在训练过程中的差异，从而提高策略学习的稳定性。PPO的目标函数如下：

其中，$\pi_{\theta}$ 和 $\pi_{\theta_{old}}$ 分别表示当前和旧的策略模型。$q$ 和 $o$ 代表采样的问题和输出序列，其中 $o_t$ 是 $o$ 中的第 $t$ 个令牌。$\epsilon$ 是用于稳定更新的裁剪超参数。$A_t$ 是在步骤 $t$ 的优势，通常通过广义优势估计（GAE）【12, High-dimensional continuous control using generalized advantage estimation, 2018, https://arxiv.org/abs/1506.02438】来估计。该目标函数鼓励新策略在将变化限制在信任区域内的同时，提高优势加权的概率。

2.2 群体相对策略优化 (GRPO)

GRPO算法原理。群体相对策略优化（GRPO），在DeepSeekMath【2, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv preprint arXiv: 2402.03300, https://arxiv.org/abs/2402.03300v3】中提出，它取消了价值函数（评论家），而是通过对同一提示（prompt）的一组采样响应（response）内的奖励进行归一化来估计优势。具体来说，对于一个提示 $x$ 和其 $G$ 个响应及相关奖励 $\{r_i\}_{i=1}^G$，群体归一化的优势由以下公式给出：

GRPO的有效性与目标函数。这种归一化方法的有效性可以从奖励塑造（reward shaping）的角度来理解。通过强调同一提示下候选输出之间的差异，它能有效保持梯度信号的可靠性，即使在稀疏奖励设置下也是如此【13, Learning to utilize shaping rewards: A new approach of reward shaping, 2020, Advances in Neural Information Processing Systems】。GRPO不向奖励中添加KL惩罚，而是通过将训练策略与参考策略之间的KL散度直接加到损失中来进行正则化。其总代理目标函数为：

其中，$r_{i,t}(\theta) = \frac{\pi_{\theta}(o_{i,t}|q, o_{i,<t})}{\pi_{\theta_{old}}(o_{i,t}|q, o_{i,<t})}$，$\epsilon$ 和 $\beta$ 是超参数，而 $D_{KL}$ 表示学习到的策略与参考策略 $\pi_{ref}$ 之间的KL散度。</p>

2.3 解耦裁剪与动态采样策略优化 (DAPO)

DAPO算法概述。解耦裁剪与动态采样策略优化（DAPO）【8, DAPO: an open-source LLM reinforcement learning system at scale, 2025, CoRR, https://doi.org/10.48550/arXiv.2503.14476】是最近一种旨在解决LLM推理中独特挑战的RL方法。对于每个问题 $q$ 和其标准答案 $a$，DAPO从旧策略中采样一组 $G$ 个输出 $\{o_i\}_{i=1}^G$，计算它们的奖励，并最大化以下代理目标函数：

其中 $\hat{A}_{i,t}$ 是群体归一化的优势。此外，DAPO解耦了裁剪的上下界（$\epsilon_{low}, \epsilon_{high}$）以更好地支持探索，动态过滤掉所有响应都正确或都不正确的样本，在令牌级别聚合损失，并对过长或截断的响应应用特殊的奖励塑造。

2.4 强化学习技术

常用RL技术分类。已有多种实用技术被引入，以稳定优化、减少方差并加速LLM在推理任务上的收敛。借鉴先前的研究和实践实现，我们将常用技术分类如下：
* 基线设计（Baseline Design）：基线对于减少策略梯度估计的方差至关重要。最近的研究提出了更有效的形式，例如使用每个组内的平均奖励作为基线【2, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv preprint arXiv: 2402.03300, https://arxiv.org/abs/2402.03300v3】，以及将每个样本的基线计算为组内其他样本的平均梯度估计【14, Back to basics: Revisiting reinforce-style optimization for learning from human feedback in llms, 2024, ACL; 15, Buy 4 REINFORCE samples, get a baseline for free!, 2019, http://OpenReview.net】。
* 裁剪策略（Clipping Strategies）：裁剪用于控制策略优化中的过度更新，可应用于奖励、优势或比率。此外，Clip Ratio Higher【8, DAPO: an open-source LLM reinforcement learning system at scale, 2025, CoRR, https://doi.org/10.48550/arXiv.2503.14476】方法放宽了PPO比率裁剪的上限，以更好地保留探索。
* 归一化策略（Normalization Strategies）：对奖励或优势进行归一化有助于稳定梯度幅度。代表性方法包括：批次级奖励归一化【6, Reinforce++: An efficient rlhf algorithm with robustness to both prompt and reward models, 2025, https://arxiv.org/abs/2501.03262】、群体级奖励归一化【2, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv preprint arXiv: 2402.03300, https://arxiv.org/abs/2402.03300v3; 14, Back to basics: Revisiting reinforce-style optimization for learning from human feedback in llms, 2024, ACL】以及不含标准差的奖励平移【7, Understanding r1-zero-like training: A critical perspective, 2025a, CoRR, https://doi.org/10.48550/arXiv.2503.20783】，该方法省略标准差项以避免难度偏差。
* 过滤策略（Filtering Strategies）：过滤在梯度计算前排除信息量不足或不希望的样本。例子包括：过长过滤【8, DAPO: an open-source LLM reinforcement learning system at scale, 2025, CoRR, https://doi.org/10.48550/arXiv.2503.14476】用于移除超过预定义长度限制的响应；错误最大裁剪掩码（Error Max Clip Mask）和正确最小裁剪掩码（Right Min Clip Mask）用于过滤过于错误或过于简单的样本；以及难度掩码【8, DAPO: an open-source LLM reinforcement learning system at scale, 2025, CoRR, https://doi.org/10.48550/arXiv.2503.14476; 16, SRPO: A cross-domain implementation of large-scale reinforcement learning on LLM, 2025, CoRR; 17, GPG: A simple and strong reinforcement learning baseline for model reasoning, 2025, CoRR】用于排除目标难度范围之外的样本。
* 损失聚合粒度（Loss Aggregation Granularity）：损失聚合的制定决定了每个令牌对总目标的贡献。常见方法包括：令牌级损失计算每个令牌的优势以减少长度偏差，而序列级损失则在序列级别进行聚合。
* 附加损失函数（Additional Loss Functions）：辅助损失可以补充主要目标并正则化训练。KL损失【8, DAPO: an open-source LLM reinforcement learning system at scale, 2025, CoRR, https://doi.org/10.48550/arXiv.2503.14476; 7, Understanding r1-zero-like training: A critical perspective, 2025a, CoRR, https://doi.org/10.48550/arXiv.2503.20783】约束与参考策略的偏离，而SFT损失【18, GRPO-LEAD: A difficulty-aware reinforcement learning approach for concise mathematical reasoning in language models, 2025, CoRR】则结合监督微调目标以保持对齐。
* 奖励设计（Reward Design）：塑造奖励函数可以引导期望的输出属性。常见例子包括：长度惩罚不鼓励过长的输出；格式化奖励鼓励输出遵循偏好的结构，如带框答案、项目符号列表或代码风格格式；长度相关的准确率奖励结合了正确性与输出长度。

本文关注重点。这些类别总结了改进LLM推理中RL的最普遍策略。在这项工作中，我们关注四个关键方面：归一化、裁剪、掩码和损失聚合，并对其机制和实际效用进行深入分析。

3.2 基线结果

数据难度对训练动态的影响。我们研究了数据难度如何影响Qwen3模型的训练动态。具体来说，我们通过损失动态、准确率轨迹和泛化差距，在三个复杂性层次（简单、中等、困难）上分析了训练收敛模式。详细的学习曲线如图3所示。实验结果表明，随着训练轮数的增加，模型在不同难度训练集上的准确率轨迹表现出显著差异。此外，当面对更具挑战性的样本时，模型通常通过生成更多令牌来拟合复杂的推理模式。

图2: 在8次rollout迭代中，不同数据集上的正确响应数量。

未对齐与对齐模型的学习效率差异。在相同的实验设置下（如图3所示），关注未对齐的Base模型和对齐模型之间的学习效率差异，我们发现对齐模型在训练初期表现出显著更高的初始准确率，并产生平均令牌长度更长的响应。然而，额外的学习仅带来了微小的增益，准确率大约提高了2%。这表明当前的RL4LLM算法对于已经高度优化的对齐模型，改进效果有限。

图3: (上2行): 四种模型变体（Qwen3-4B-Base, Qwen3-8B-Base, Qwen3-4B, Qwen3-8B）在不同数据难度下的测试准确率和响应长度。中2行: Base模型在训练迭代过程中的准确率。第一行是Qwen3-4B-Base的结果。第二行是Qwen3-8B-Base的结果。下2行: 对齐模型在训练迭代过程中的准确率。第一行是Qwen3-4B的结果，第二行是Qwen3-8B的结果。为确保定性分析的清晰和直观，所有曲线均使用相同的参数进行平滑处理。具体来说，均值使用11步移动窗口计算，指数平滑因子为0.8。曲线周围的阴影区域表示均值±(std_multiplier × 标准差)的范围，直观地表示了振荡幅度。

A2 方法细节（缩写）

4.1 归一化

优势归一化的背景与争议。优势归一化是减少梯度方差和稳定策略优化的成熟技术【26, Delve into PPO: Implementation matters for stable RLHF, 2023, NeurIPS 2023 Workshop】，并已成为语言模型RL训练流程的标准组件。然而，其实现方式仍存在显著差异。例如，GRPO【2, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv preprint arXiv: 2402.03300, https://arxiv.org/abs/2402.03300v3】和RLOO 【14, Back to basics: Revisiting reinforce-style optimization for learning from human feedback in llms, 2024, ACL; 15, Buy 4 REINFORCE samples, get a baseline for free!, 2019, http://OpenReview.net】使用群体级归一化，通过计算相对于同一提示内其他响应的优势来促进上下文内的竞争。另一方面，REINFORCE++【6, Reinforce++: An efficient rlhf algorithm with robustness to both prompt and reward models, 2025, https://arxiv.org/abs/2501.03262】则采用批次级归一化，认为在单个提示内过度优化可能导致奖励黑客（reward hacking）并阻碍泛化，尤其是在响应多样性较低时。

归一化公式。形式上，给定一个提示 $x$，有 $K$ 个采样响应及对应的奖励 $\{r_k\}_{k=1}^K$，第 $k$ 个响应的群体级归一化优势为：

相比之下，批次归一化计算大小为 $N$ 的 rollout 批次中 $K$ 个采样轨迹的奖励。第 $i$ 个响应的归一化优势为：

4.1.1 优势归一化中标准差项的影响

核心发现2：在奖励分布高度集中时移除标准差项能增强训练稳定性。前一节强调了各种归一化技术对奖励尺度的敏感性。一个合理的解释是，不同的奖励尺度直接影响标准差的计算，从而改变归一化的强度。特别是当一个提示组内的模型响应产生高度相似的奖励时（例如，响应几乎全对或全错），得到的标准差会变得极小。在这种情况下，用这个小标准差进行归一化会过度放大梯度更新，导致模型过分强调极端难度的任务，这种现象类似于“难度偏差”【7, Understanding r1-zero-like training: A critical perspective, 2025a, CoRR, https://doi.org/10.48550/arXiv.2503.20783】。

实验验证。为了验证标准差项是否是驱动归一化性能差异的关键因素，我们采用在上一节中表现不稳定的批次级计算方法来计算优势的均值，并对标准差项进行消融实验。这可以形式化为：

简单数据集上的结果。我们分别记录了在简单和困难数据上训练后的准确率。图5中简单数据的曲线显示，策略迅速收敛到高度一致的行为，导致奖励值分布高度集中。相应地，奖励分布的标准差迅速下降到一个低值。在这种情况下应用基于标准差的归一化会导致分母过小，从而过度放大奖励和优势值。这反过来又会引发过大的梯度，破坏训练的稳定性，甚至可能引发梯度爆炸。因此，这些实验结果从经验上验证了我们的猜想，即标准差项是优势归一化的关键机制。

困难数据集上的结果。为了进一步巩固我们的结论，我们增加了一组基于困难数据集的对比。我们观察到，在训练过程中，奖励的标准差保持在相对较高的水平。因此，仅均值归一化和基于标准差的归一化都产生了相似的效率，并且无论采用哪种归一化方式，训练都保持稳定。因此，在这种平滑的奖励分布下，归一化方式的选择对收敛或整体性能影响不大。

结论总结。总而言之，我们的实验和分析强调，在奖励分布高度集中的场景中，从优势归一化中省略标准差可以有效防止异常的梯度放大，从而提高模型训练的稳定性和鲁棒性。然而，对于本身奖励方差较高的任务，两种归一化方法通常都足以维持稳定的优化。

图5: 左图：在不同难度数据集上训练期间标准差的变化。右图：从批次级归一化中移除标准差前后的测试准确率，上图为在简单数据上训练的结果，下图为在困难数据上训练的结果。

4.1.2 重构一种稳健的归一化技术

核心发现3：在局部（群体）计算均值，在全局（批次）计算标准差，可实现更稳健的奖励塑造。第4.1.1节强调了标准差在决定优势归一化机制有效性中的关键作用。这引出了一个问题：是否存在一种更稳健、更有效的均值和标准差组合用于奖励塑造？为了探索这一点，我们采用群体级均值计算方法，并搭配两种计算标准差的方法：局部（群体级）和全局（批次级）。然后，我们评估了这些组合在两种模型尺寸上的性能。

实验结果与分析。结果如（图4和）图6所示，全局级计算表现出明显优势。我们认为这是因为批次级标准差通过有效降低梯度幅度提供了更强的归一化，从而防止了过度的策略更新。这种方法更有效地适应了稀疏奖励和粗粒度优势拟合中常见的有偏奖励信号，从而实现了更稳定和鲁棒的学习行为。此外，我们的实验结果支持了来自Hu等人【6, Reinforce++: An efficient rlhf algorithm with robustness to both prompt and reward models, 2025, https://arxiv.org/abs/2501.03262】的一个主张，即批次级归一化，甚至在某些情况下减去局部均值并除以批次标准差，表现更好。

图4: Base模型在训练迭代过程中的准确率。上2行：Qwen3-4B-Base使用不同归一化技术。第一行使用简单训练数据集，第二行使用困难训练数据集。中2行：Qwen3-8B-Base使用不同归一化技术（在默认奖励尺度下）。下2行：对齐模型（在中等难度数据集上训练，在默认奖励尺度下）使用不同归一化技术的准确率。第一行显示Qwen3-4B的结果，第二行显示Qwen3-8B的结果。

图6: Base模型使用不同标准差计算方法的准确率比较。上2行：Qwen3-4B-Base使用不同标准差计算方法的准确率。第一行使用简单训练数据集，第二行使用困难训练数据集。下2行：Qwen3-8B-Base使用不同标准差计算方法的准确率比较。第一行使用简单训练数据集，第二行使用困难训练数据集。

4.2 Clip-Higher

Clip-Higher机制的引入。虽然Clip机制增强了PPO训练的稳定性【27, Ppo-clip attains global optimality: Towards deeper understandings of clipping, 2024b, AAAI】，但它在基于LLM的文本生成中引入了关键挑战。具体来说，它不成比例地抑制了低概率令牌【8, DAPO: an open-source LLM reinforcement learning system at scale, 2025, CoRR, https://doi.org/10.48550/arXiv.2503.14476】，导致熵崩溃，即策略变得确定性且缺乏多样性的状态【28, On stationary point convergence of ppo-clip, 2024, ICLR】。这种抑制创造了一个有害的正反馈循环：随着训练的进行，熵减少，探索收缩，高概率模式被进一步加强，熵进一步下降。这种行为严重妨碍了在复杂推理任务上的性能，因为在这些任务中，探索新路径至关重要。为了解决这个问题，Clip-Higher机制被广泛引入到训练目标中，其形式化表示如下：

Clip-Higher的作用与研究问题。$\epsilon_{high}$ 表示Clip机制的上限，$\epsilon_{low}$ 表示下限。与强制比例公平性的原始clip不同，Clip-Higher为优势引入了更高的上限，允许低概率令牌有更多机会增加其概率。通过扩大低概率区域的探索潜力，该技术有效缓解了熵崩溃。然而，由于缺乏对底层机制的深入分析和详细使用指南，实践者对于在何种场景下使用Clip-Higher以及在不同条件下理想的上限设置感到困惑。本节通过一系列全面的实验来解决上述遗留问题。

图7: 不同模型使用Clip-Higher的熵比较。更高的裁剪上界可以缓解对齐模型中的熵下降。

4.2.1 我们应该在哪些设置中使用Clip-Higher

核心发现4：对于基础推理能力更强的模型，增加clip higher参数更有可能促进探索更好的解决方案路径。通过广泛的实证实践，我们观察到优势裁剪技术在不同模型架构中表现出不同的有效性。为了验证这一点，本节采用未对齐（base）模型和对齐（instruct）模型，并使用不同尺寸，以清晰地展示Clip机制的敏感性，并从建模角度总结Clip-Higher的实用指南。

实验结果分析。如图7所示，实验结果表明，增加裁剪上界 $\epsilon_{high}$ 的影响是模型依赖的。对于基础模型，调整上界对策略熵的影响很小，甚至与普通策略相比损害了性能（如图8上2行所示）。相比之下，对齐模型表现出截然不同的反应：提高裁剪上界显著减缓了熵崩溃，导致下游评估指标的持续性能提升（参见图8中、下两行）。

原因探究。这种差异可归因于几个潜在因素。首先，基础模型在较低的策略裁剪率下运行，约为0.003，这表明连续策略之间的偏差极小。此外，相对初级的策略表达能力限制了这些基础模型的探索能力，阻碍了发现高奖励轨迹。因此，更高的裁剪上界对学习动态的改善微乎其微。

对齐模型的优势。另一方面，利用先进预训练技术或后训练增强的对齐模型表现出更优的推理能力和泛化性能【29, Qwen3 technical report, 2025, https://arxiv.org/abs/2505.09388】。如图9所示，与基础模型相比，对齐模型在初始阶段几乎没有概率很高的偏好令牌。更大规模模型的令牌分布见附录D。因此，更高的裁剪上界可以有效弥合令牌之间的概率差距，并缓解熵崩溃。对于这些模型，提高上界扩大了策略更新的允许范围，从而促进了训练期间更多样化的动作采样并增强了探索行为。这种机制在保持较高熵的同时，也增加了识别最优解的概率，这通过改进的评估指标得到了证明。

图8: 上2行：使用更高裁剪上界的Base模型（在中等数据上训练）的测试准确率。中2行：使用更高裁剪上界的对齐模型（在中等数据上训练）的测试准确率。下2行：使用更高裁剪上界的对齐模型（在简单数据上训练）的测试准确率。

图9: Qwen3-4B-Base（左）和Qwen3-4B（右）在两个裁剪上界 $\epsilon \in \{0.20, 0.28\}$ 下的预测概率分布。

4.2.2 从语言学角度分析Clip-Higher的有效性

核心发现5：传统裁剪可能限制模型生成创新推理结构的能力。而Clip-Higher允许模型探索更广泛的话语推理结构。在4.2.1节中我们从令牌层面展示了Clip-Higher的行为，现在我们通过令牌级语言学分析其对推理逻辑的影响。如图10所示，将上界设置为0.2会对策略更新施加严格约束，限制单个令牌的概率发生大的偏离。在这些更严格的条件下，我们的分析显示，裁剪主要影响连接性令牌，如“因此”（therefore）、“如果”（if）和“但是”（but）。这些令牌频繁出现在句子开头，作为对话生成中的关键语义标记或过渡词。这类连接词常引入新的推理方向。然而，它们在新旧策略间的概率比经常超过裁剪阈值，在PPO优化中触发激进的抑制。虽然这种传统裁剪确保了整体令牌分布的稳定性，但它可能通过限制话语层面连接词使用的灵活性，从而限制了模型生成创新或多样化论证推理结构的能力。

提高上界后的变化。此外，将上界从0.2提高到0.28显著扩大了策略更新空间，允许令牌级概率与旧策略有更大的偏离。在这些更宽松的条件下，我们的分析表明，被裁剪令牌的频率显著下降，裁剪的焦点从话语连接词转向高频功能性令牌，如“是”（is）、“的”（the）和“，”。这些令牌在句子中普遍存在，且上下文依赖性相对较弱，使其概率估计对采样策略和训练策略之间概率差异的波动高度敏感。这种转变允许模型探索更广泛的话语推理结构，并促进响应生成的多样性。此外，对常见功能词的剩余裁剪作用则有助于维持核心句子结构的稳定性。

图10: 左图：在相同提示下，不同裁剪上界的案例研究。右图：在裁剪频率最高的前20个令牌上，不同上界的触发差异。

4.2.3 如何设置优势裁剪的上限

核心发现6：在小尺寸模型上，性能与裁剪上界之间似乎存在一种“缩放定律”，而这种定律在较大模型上并不存在。第4.2.1节验证了Clip-Higher在对齐模型上显示出显著改进。然而，目前大多数工作直接将Clip的上限设置为来自【8, DAPO: an open-source LLM reinforcement learning system at scale, 2025, CoRR, https://doi.org/10.48550/arXiv.2503.14476】的默认值0.28。然而，我们认为不同模型对此参数有不同的偏好。为了验证这一猜想，我们通过统一设置Clip的上限，经验性地搜索了适用于不同对齐模型的超参数设置。具体来说，我们将Clip上限的探索范围从传统Clip的默认阈值0.2设置为0.32（超出了广泛使用的上限0.28）。我们采用了两种尺寸的模型，并统一评估了它们在不同设置下的学习能力。

实验结果。图11中的结果显示，对于小尺寸模型（4B），随着裁剪上限的增加，模型性能逐渐提高。在0.32时，它表现出与其他设置相比最好的性能。另一方面，对于更大尺寸的模型（8B），逐渐增加裁剪上限并未显示出渐进的改进。当上限设置为0.28时，性能更为突出。

图11: 不同裁剪上界下对齐模型（在中等数据上训练）的测试准确率。

4.3 损失聚合

损失聚合策略的背景。损失聚合的策略直接决定了优化过程中每个样本或令牌对总梯度的贡献【30, Prorl: Prolonged reinforcement learning expands reasoning boundaries in large language models, 2025b, CoRR, https://doi.org/10.48550/arXiv.2505.24864】。常见的策略包括令牌级和序列级聚合。GRPO 【2, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv preprint arXiv: 2402.03300, https://arxiv.org/abs/2402.03300v3】采用的序列级聚合首先在每个样本内的所有令牌上平均损失，然后在整个批次中平均这些每个响应的损失，从而为每个响应分配相等的权重，无论其长度如何。然而，Yu等人【8, DAPO: an open-source LLM reinforcement learning system at scale, 2025, CoRR, https://doi.org/10.48550/arXiv.2503.14476】指出了这种方法的一个缺陷：较长的响应中每个令牌对总损失的影响被削弱，阻碍了模型从较长、复杂的响应中有效学习的能力。这可能降低模型从长而复杂的答案中学习的能力，并可能使优化偏向于简洁性，因为较短的正确响应获得更大的梯度更新，而较长的不正确响应受到的惩罚不足【7, Understanding r1-zero-like training: A critical perspective, 2025a, CoRR, https://doi.org/10.48550/arXiv.2503.20783】。

令牌级聚合的提出。针对此问题，Yu等人【8, DAPO: an open-source LLM reinforcement learning system at scale, 2025, CoRR, https://doi.org/10.48550/arXiv.2503.14476】转向了令牌级计算方法。在这里，损失是通过对所有样本的所有令牌的损失求和，然后按总令牌数进行归一化来计算的，从而保证每个令牌无论响应长度如何都有相等的贡献。尽管这些方法被广泛采用，但现有的分析仍然有限。本节中，我们在不同的训练数据分布下，对这两种损失计算技术进行了详细的实证比较。评估从模型类型的角度全面评估了这些方法的有效性。

4.3.1 令牌级损失聚合是否适用于所有设置？

核心发现7：与序列级计算相比，令牌级损失在Base模型上更有效，而在Instruct模型上改进有限。为了系统评估不同损失聚合策略的有效性，我们在Qwen3-8B的基础版和对齐版上比较了令牌级和序列级损失聚合，如图12和17所示。对于基础模型，令牌级损失通过确保每个令牌对优化信号贡献相等，持续改善了收敛性、峰值准确率和鲁棒性，尤其是在具有挑战性的数据集上。然而，如图12（下2行）所示，这种优势在对齐模型中并未显现。事实上，在大多数数据集和设置中，序列级聚合在收敛速度和最终

PaperCache

Tricks or Traps? A Deep Dive into RL for LLM Reasoning

Tricks or Traps? A Deep Dive into RL for LLM Reasoning

A1 主要贡献（总结）