APRIL: Active Partial Rollouts in Reinforcement Learning to Tame Long-Tail Generation

发表时间: 2025-09 · arXiv:2509.18521 (AMD)

原文: https://arxiv.org/abs/2509.18521

作者/机构: Yuzhen Zhou (AMD, CMU, LMSYS Org), Jiajun Li (CMU, LMSYS Org), Yusheng Su (AMD, LMSYS Org), Gowtham Ramesh (AMD), Zilin Zhu (LMSYS Org), Xiang Long (LMSYS Org), Chenyang Zhao (LMSYS Org, UCLA), Jin Pan (LMSYS Org), Xiaodong Yu (AMD), Ze Wang (AMD), Kangrui Du (LMSYS Org), Jialian Wu (AMD), Ximeng Sun (AMD), Jiang Liu (AMD), Qiaolin Yu (LMSYS Org), Hao Chen (AMD), Zicheng Liu (AMD), Emad Barsoum (AMD)

A1 主要贡献

强化学习(RL)已成为大规模预训练语言模型(LLM)发展的关键阶段,从GPT-o系列到DeepSeek-R1等模型都依赖大规模RL训练来增强推理和编码能力。然而,RL训练的计算成本高昂,其中rollout生成阶段占总运行时间的90%以上。这一阶段的效率受到rollout响应长度“长尾”分布的严重制约:少数冗长的响应会拖慢整个批次,导致GPU闲置和利用率不足。随着模型和rollout规模的持续增长,这一瓶颈日益限制了可扩展性。

核心问题与研究目标
本文旨在解决RL训练中因rollout生成存在“长尾”现象而导致的效率低下问题。核心问题是:如何在RL训练中优化rollout以减少推理开销,尤其是在长尾生成场景下?研究目标是提出一种能够有效缓解长尾效应、提高计算效率,同时不损害模型准确性和收敛性的方法。

创新点 (APRIL)
为应对上述挑战,本文提出了APRIL (Active Partial Rollouts in Reinforcement Learning),一种用于加速RL训练中rollout生成的计算高效方法。其核心机制如图1所示:
1. 超额配置(Over-provisioning):在每次迭代中,向推理引擎提交超额的rollout请求(数量大于默认批次大小)。
2. 提前终止(Early Termination):一旦生成了所需数量的完整rollout响应,推理引擎便主动终止仍在运行的其余rollout任务。
3. 回收利用(Recycling):未完成的“部分rollout”结果不会被丢弃,而是被存入一个缓冲区,并在后续的迭代中继续生成。
4. 即时训练(Immediate Training):已完成的rollout被立即用于计算损失并优化LLM策略模型。

图1:(上)在标准的同步RL训练范式中,GPU利用率通常不理想。(下)我们的APRIL机制通过减少RL过程中的空闲时间(bubble)来缓解此问题。
图1:(上)在标准的同步RL训练范式中,GPU利用率通常不理想。(下)我们的APRIL机制通过减少RL过程中的空闲时间(bubble)来缓解此问题。

这种策略确保了没有rollout实例被浪费,系统性地回收了不完整的rollout以缓解长尾效应,从而显著减少了GPU在推理过程中的空闲时间。

主要贡献概括
* 量化长尾问题:首次定量地描述了RL训练中的长尾生成问题,证明了同一批次内rollout长度的显著差异,强调了改进rollout策略以在不牺牲准确性的前提下提高效率的必要性。
* 提出并开源APRIL:提出并开源了APRIL方法,该方法在各种主流RL算法上平均将rollout吞吐量提高了22.5%。
* 提升效率与性能:实验证明,APRIL不仅提高了RL效率,还加快了收敛速度,并在各项任务上平均将最终准确率提高了约2.1%。
* 框架与硬件无关性:APRIL可轻松部署于不同的RL框架,并已集成到slime框架中,同时兼容NVIDIA和AMD的GPU平台。

A2 方法细节

2.1 通用强化学习训练的初步介绍

通用RL训练的公式化表达。在介绍APRIL之前,我们首先将标准的强化学习(RL)训练过程形式化。为了清晰起见,我们采用REINFORCE算法(Williams, 1992)【Williams, Simple statistical gradient-following algorithms for connectionist reinforcement learning, 1992, Machine Learning, doi: 10.1007/BF00992696】作为RL训练的通用表述(Yao et al., 2025)【Yao et al., Your efficient rl framework secretly brings you off-policy rl training, 2025, https://fengyao.notion.site/off-policy-rl】,其表达式如下 :

公式1
公式1

其中,$\mu$表示学习率,$\theta_k$表示在步骤$k$时的策略模型参数。$a \sim \pi(\theta_k)$这一项表示动作$a$是从当前参数$\theta_k$定义的策略分布中采样的,这对应于推理引擎中的rollout过程。梯度项$\nabla_\theta \log \pi(a, \theta_k)|_{\theta=\theta_k}$是得分函数,用于衡量采样动作的对数概率相对于策略参数的变化。该部分可被视为训练步骤,因为它决定了如何调整策略参数$\theta$以增加期望奖励$R(a)$。值得注意的是,$R(.)$可以是一个学习到的奖励模型,如在PPO(Schulman et al., 2017)【Schulman et al., Proximal policy optimization algorithms, 2017, CoRR, abs/1707.06347】中;也可以是一个奖励函数,如在GRPO(Mroueh et al., 2025)【Mroueh et al., Reinforcement learning with verifiable rewards: Grpo’s effective loss, dynamics, and success amplification, 2025, arXiv:2503.06639】、DAPO(Yu et al., 2025a)【Yu et al., Dapo: An open-source llm reinforcement learning system at scale, 2025a, arXiv:2503.14476】和GSPO(Zheng et al., 2025)【Zheng et al., Group sequence policy optimization, 2025, arXiv:2507.18071】中。

2.2 用于缓解长尾问题的部分Rollout

标准同步RL训练的低效性。在标准的同步RL训练范式中,给定一批实例,推理引擎会为所有实例生成rollout(即$a \sim \pi(\theta_k)$)直到全部完成。然后,生成的轨迹被转发到训练引擎($\nabla_\theta \log \pi(a, \theta_k)|_{\theta=\theta_k}$)以更新策略模型,如公式1和图2所示。然而,这个过程常常导致GPU利用率不佳,因为较快的rollout必须等待最长的序列在推理引擎中完成,从而引入了空闲时间,减慢了整个训练周期。

图2:APRIL超额配置实例,一旦达到目标数量的实例完成rollout就停止,并更新策略模型。未完成的rollout被存储在数据缓冲区中,并在后续步骤中恢复,从而减少空闲时间并提高训练效率。
图2:APRIL超额配置实例,一旦达到目标数量的实例完成rollout就停止,并更新策略模型。未完成的rollout被存储在数据缓冲区中,并在后续步骤中恢复,从而减少空闲时间并提高训练效率。

APRIL机制的提出与工作流程。为了缓解这种低效,我们提出了如图2所示的APRIL机制。APRIL并非等待所有工作者在推理阶段完成rollout,而是启动一个超额配置数量的实例rollout($N' > N$),并在步骤$k$时,一旦所需数量$N$的实例rollout序列完成,就终止生成过程。已完成的rollout用于优化策略模型$\pi(\theta_k)$,而未完成的则被缓冲并在下一步$k+1$中恢复,从而在不丢失数据的情况下减少GPU空闲时间。具体流程如下:
* 超额配置生成(Over-provisioned Generation):启动$N'$个实例,其中$N' > N$。
* 提前终止(Early Termination):一旦$N$个实例的rollout序列完成,便停止生成。
* 缓冲续写(Buffering Continuations):将未完成实例的rollout存储在续写缓冲区中;已完成的则发送用于策略优化。
* 优先恢复(Prioritized Resumption):在步骤$k+1$时,优先恢复缓冲区中的rollout,然后再开始新的rollout。
APRIL方法通过消除因等待“长尾”rollout生成完成而引起的延迟,显著提高了系统吞吐量。然而,接下来需要注意一个要点。

对优势函数的影响。APRIL机制引入了对RL算法严格的on-policy(同策略)假设的一个微妙但重要的偏离。例如,一个用于将策略模型参数更新到$\theta_{k+1}$的训练批次$N$,现在由多个不同数据集构成:
* 新完成的rollout实例 ($D_{k+1}(\text{completed})$):在当前策略$\pi(\theta_{k+1})$下完全启动并完成的轨迹。
* 续写的rollout实例 ($D_k(\text{completed})$):由早期策略$\pi(\theta_k)$初始化,然后被中止并恢复一次或多次,最终在当前策略$\pi(\theta_{k+1})$下完成的轨迹。
因此,在$D_{k+1}$中收集的rollout数据集$N$并非单一来源的。相反,它包含的数据不仅来自$\pi(\theta_{k+1})$,还来自之前的策略$\pi(\theta_k), \pi(\theta_{k-1}), \dots, \pi(\theta_{k-m})$,其中$m \le k$。

混合策略下的优势估计与实证结果。因此,与这些轨迹相关的优势估计是在一个由“混合”策略生成的序列上计算的。我们的实证结果表明,这种修改并不会破坏训练的稳定性,并且偶尔会带来微小但一致的增益,如图7所示。我们的方法已成功应用于多种最常用的RL算法,包括PPO(Schulman et al., 2017)【Schulman et al., Proximal policy optimization algorithms, 2017, CoRR, abs/1707.06347】、GRPO(Mroueh et al., 2025)【Mroueh et al., Reinforcement learning with verifiable rewards: Grpo’s effective loss, dynamics, and success amplification, 2025, arXiv:2503.06639】、DAPO(Yu et al., 2025a)【Yu et al., Dapo: An open-source llm reinforcement learning system at scale, 2025a, arXiv:2503.14476】和GSPO(Zheng et al., 2025)【Zheng et al., Group sequence policy optimization, 2025, arXiv:2507.18071】。

A3 背景知识、关键观察与设计原则

Rollout中的长尾问题

Rollout中的长尾问题量化分析。为了量化长尾问题,我们首先在三个数据集上进行了一个纯rollout实验,没有进行模型训练。在我们的分析中,我们选择了代表性的数据集,并为每个输入实例生成了四个rollout,然后计算每个实例的平均长度。所有数据集都表现出长尾行为,特别是DeepMath-103K,我们为其设置了32,768个token的最大生成长度,以便在分析中完全捕捉长尾分布。

长尾分布对同步RL框架的影响。如图3所示,在所有数据集中,其rollout长度分布表明超过一半的rollout响应在几千个token内终止,而一个长尾的异常值延伸到接近最大限制。这种偏斜意味着,在一个标准的同步RL框架中,一个批次的处理完成时间由生成时间最长的实例主导。因此,在推理过程中会出现大量的GPU空闲时间,导致训练气泡(training bubbles),如图1(上)所示。

图3:rollout响应长度的分布揭示了RL的rollout中一个显著的长尾峰值。
图3:rollout响应长度的分布揭示了RL的rollout中一个显著的长尾峰值。

相关工作与设计动机

RL框架架构:同步 vs. 异步。从架构角度看,RL框架可大致分为同步和异步两类。主要区别在于推理引擎(负责rollout生成)和训练引擎(负责模型权重更新)之间的协调管理和计算资源分配。

Rollout优化
* 推理层面的加速:除了高层架构选择,大量研究集中在优化rollout阶段本身。LLM的自回归、逐token生成过程本质上是顺序且内存密集型的,是RL训练流程中的主要计算瓶颈。为解决传统静态批处理中GPU空闲的问题,一些优化被引入。例如,连续批处理(Yu et al., 2022)【Yu et al., Orca: A distributed serving system for Transformer-Based generative models, 2022, OSDI 22】在单次迭代粒度上处理请求,一旦序列完成生成,其资源立即释放,新请求可无延迟加入批次,显著提高GPU利用率。最近,推测解码(speculative decoding)(Leviathan et al., 2023【Leviathan et al., Fast inference from transformers via speculative decoding, 2023, arXiv:2211.17192】; Chen et al., 2023【Chen et al., Accelerating large language model decoding with speculative sampling, 2023, arXiv:2302.01318】; Svirschevski et al., 2025【Svirschevski et al., Specexec: massively parallel speculative decoding for interactive llm inference on consumer devices, 2025, NIPS ’24】; Chen et al., 2025【Chen et al., Spin: Accelerating large language model inference with heterogeneous speculative models, 2025, arXiv:2503.15921】)成为一种强大的优化。它利用一个更小、更快的草稿模型生成候选token序列,然后由更大、更昂贵的目标模型验证。这些方法旨在通过优化token生成或批处理方式来加速单个rollout的执行。相比之下,我们的工作APRIL在更高层次的RL系统调度层上运作,它不修改批处理或解码核心,而是引入一个管理跨多个RL迭代的rollout生成生命周期的调度机制。因此,APRIL的部分rollout机制与上述推理级优化是互补的。

算法:On-policy vs. Off-policy
* On-policy Rollout:近端策略优化(PPO)(Schulman et al., 2017【Schulman et al., Proximal policy optimization algorithms, 2017, CoRR, abs/1707.06347】; Zheng et al., 2023【Zheng et al., Secrets of rlhf in large language models part i: Ppo, 2023, arXiv:2307.04964】)是LLM RL训练的基石,它是一种on-policy算法,每次策略更新都需要全新的数据,导致样本效率低下和rollout时间过长。此外,标准的PPO训练架构通常需要四个不同的LLM(策略、参考、奖励和价值模型),导致巨大的GPU内存开销。为了缓解这些瓶颈,组相对策略优化(GRPO)(Shao et al., 2024【Shao et al., Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv:2402.03300】; Mroueh et al., 2025【Mroueh et al., Reinforcement learning with verifiable rewards: Grpo’s effective loss, dynamics, and success amplification, 2025, arXiv:2503.06639】)被提出,它通过为每个输入生成多个候选响应并使用其平均得分作为基线,从而消除了对显式价值网络的需求,显著降低了计算需求。

A4 实验环境

A4 实验结果

实验旨在验证APRIL在缓解长尾rollout生成问题上的有效性。

性能 - Token吞吐量

表1:基线(非部分rollout)和APRIL的rollout吞吐量对比。APRIL在所有数据集上(dapo-math-17k、DeepScaler和DeepMath-103K)均具有更高的吞吐量。
表1

收敛速度与准确率

表2:我们比较了基线(非部分rollout)和APRIL的准确率。总体而言,APRIL的表现与基线相当,在某些情况下取得了稍好的最终准确率(Acc.)。
表2

部分Rollout百分比与Rollout长度分析
* APRIL引入了多少off-policy数据?
* 分析内容:分析训练批次中rollout的构成,以量化off-policy数据比例。
* 分析结果:如图4所示,在超采样的一个典型步骤中,后续步骤中约40%的token来自被截断并续写的实例。尽管比例很高,APRIL在整个训练过程中保持稳定,甚至实现了稍高的最终准确率。这表明从多个先前策略模型(在5步内)中合并rollout可能会使rollout数据组合多样化,并提高RL训练的准确性。
图4:我们的分析表明,在每个RL训练步骤中,大约40%的rollout包含了由先前策略模型生成的序列。

A7 补充细节

硬件无关性

APRIL的跨平台兼容性。为了展示APRIL的兼容性和普适性,我们将其集成到广泛使用的开源RL框架slime中,并在包括NVIDIA H100和AMD MI300在内的多个硬件平台上复现了我们的主要实验。

针对AMD MI300的内存优化。为了在AMD MI300 GPU上进行部署,我们额外在AMD端用HIP实现了torch memory saver。这是一个PyTorch扩展,旨在缓解在“共置模式”(co-allocated mode)下推理和训练交替阶段的GPU内存压力,即训练引擎和推理引擎共享同一组GPU。这种设置在RL训练中需要额外的调度机制。

torch memory saver工作机制torch memory saver引入了一种基于区域的标记机制,允许对张量(如模型权重、KV缓存和缓冲区)进行选择性管理。具体来说,与给定标签关联的张量可以被“暂停”(paused),即释放其物理内存,但保留其虚拟地址。当需要时,这些张量可以通过将新分配的物理内存重新映射回原始虚拟地址来“恢复”(resumed),从而保持与CUDA/HIP Graph的兼容性。在实践中,该机制支持对内存区域进行选择性暂停和多阶段恢复,允许用户在推理后释放GPU内存,并在后续rollout前恢复它。其关键优势在于,它能在不牺牲性能或修改CUDA/HIP Graph执行的情况下,减少内存不足(OOM)错误和峰值内存消耗。借此,我们可以在共置模式下进行RL训练。详细实现涉及对底层GPU操作的广泛讨论,因此在此不作重点介绍。基于HIP的实现已合并到官方上游GitHub仓库,并已在在线文档中介绍。

A5 结论

本文介绍了APRIL,一种简单而有效的方法,用于缓解大型语言模型强化学习中的长尾低效问题。通过重用部分rollout和减少计算浪费,APRIL在常用的RL算法上平均将吞吐量提高了22.5%,加速了收敛,并且在某些情况下,在三个任务上平均实现了2.1%的更高最终准确率。此外,我们还进行了进一步的工程努力,以支持在不同硬件设备上的部署。除了这些经验上的增益,APRIL还强调了同时解决系统级瓶颈和算法设计的重要性,为更高效和可持续的RL训练迈出了实用的一步。我们预计其原则将激励未来更多关于大规模RL训练的可扩展算法和系统级策略的研究。

A6 附录

A.1 LLM的使用

我们仅使用ChatGPT-5作为通用写作助手,对本文中的句子进行改写,并纠正语法和拼写错误。该模型未参与研究构思、实验设计、数据分析或得出结论。作者对本文内容负全部责任。

A.2 实验设置

表4:RL训练超参数。左表显示推理超参数,右表显示训练超参数。

(a) 标准(非部分rollout)和APRIL(部分rollout)配置
表4(a)

(b) 训练配置
表4(b)

算法、模型和数据集。我们的实验在两个模型Qwen3-4B和Qwen3-8B上进行,涵盖三个数学推理任务。我们使用了一系列多样化的数学推理数据集进行训练,包括DAPO-Math-17k、DeepMath-103K和DeepScaleR。为了评估最终性能,我们使用了AIME-2024基准测试,这是一组近期具有挑战性的数学推理问题。为忠实验证所提方法的鲁棒性,我们将APRIL应用于两种最广泛使用的RL算法:GRPO和DAPO。

硬件平台。APRIL可以在不同的硬件平台上有效运行。我们主要在配备8块NVIDIA H100 GPU或8块AMD MI300 GPU的单节点上进行开发和评估。由于页面限制,以下章节中呈现的实验结果主要集中在AMD 8×MI300的配置上。

超参数设置。如表4所示,我们总结了实验中使用的超参数。在我们的设置中,rollout batch size=32指定了输入实例的数量,这对应于单个训练步骤的批次大小。n samples per prompt=8,每个输入实例生成多个rollout,导致每步收集总共32 × 8 = 256个样本。对于APRIL,如前所述,我们通过设置over sampling batch size=64(2倍于rollout batch size)来超额配置rollout请求,这意味着从推理引擎请求512个样本,但一旦前256个rollout完成,rollout过程即终止。

A.3 实验

A.3.1 性能 - Token吞吐量

APRIL对吞吐量的显著提升。我们工作的核心主张是APRIL可以显著加速RL的rollout阶段。我们对我们的主动部分rollout(APRIL)方法(用实线表示)与标准的非部分rollout基线(用虚线表示)进行了全面评估。我们测量了rollout吞吐量,定义为生成的总token数除以每次rollout迭代的墙钟时间。如图6所示,我们列出了实际的吞吐量。对于Qwen3-4B模型,在使用GRPO算法时,APRIL在三个数据集上持续将吞吐量提高了24.4%、31.8%、37.7%;在使用DAPO算法时,提高了9.0%、13.5%、9.8%。对于Qwen3-8B模型,吞吐量分别提高了26.4%、34.7%、49.5%和8.7%、8.5%、10.2%。总体平均吞吐量提高了约22.5%。

图6:基线(非部分rollout,虚线)与APRIL(实线)的rollout吞吐量对比。x轴表示训练步骤,y轴表示吞吐量。APRIL在所有数据集上(dapo-math-17k、DeepScaler和DeepMath-103K)均具有更高的吞吐量。
图6:基线(非部分rollout,虚线)与APRIL(实线)的rollout吞吐量对比。x轴表示训练步骤,y轴表示吞吐量。APRIL在所有数据集上(dapo-math-17k、DeepScaler和DeepMath-103K)均具有更高的吞吐量。

A.3.2 收敛速度和准确率

APRIL对收敛和准确率的积极影响。一个潜在的担忧是,APRIL引入off-policy的rollout(即由早期版本的策略模型生成的rollout,如2.2节所述)可能会破坏训练的稳定性或降低收敛速度和最终准确率。如图7所示,对于Qwen3-4B模型,APRIL在使用GRPO时将准确率提高了0.6%、1.1%和8.2%;在使用DAPO时,准确率变化为-0.1%、1.2%和12.8%。对于Qwen3-8B模型,APRIL在使用GRPO时获得了0.4%、-0.7%、2.6%的增益;在使用DAPO时,增益为0.7%、-1.6%、-0.4%。总体平均准确率提高了约2.1%。这表明,结合轻度off-policy的rollout可以增强rollout的多样性,从而对学习动态和最终模型性能产生积极影响。此外,训练保持稳定,甚至可以从更新RL框架内策略时增加的多样性中受益。

图7:基线(非部分rollout)与APRIL(实线)的收敛速度和准确率对比。y轴表示准确率。总体而言,APRIL表现更优。
图7:基线(非部分rollout)与APRIL(实线)的收敛速度和准确率对比。y轴表示准确率。总体而言,APRIL表现更优。

A.3.3 部分Rollout百分比和Rollout长度分析

图8:σ_batch-level:每次迭代在批次级别的响应长度标准差。 图9:σ_instance-level:每次迭代在实例级别的响应长度标准差。


引用文献清单

  1. 【Ouyang et al., 2022】: Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.

    • 引用位置: A1 主要贡献
    • 原文描述: "Its importance was first highlighted by the release of ChatGPT (OpenAI et al., 2025) at the end of 2022, when reinforcement learning from human feedback (RLHF) (Ouyang et al., 2022) proved highly effective in aligning LLMs with human instructions."
  2. 【Kwon et al., 2023】: Kwon, W., Li, Z., Zhuang, S., et al. (2023). Efficient memory management for large language model serving with pagedattention. In Proceedings of the 29th Symposium on Operating Systems Principles, SOSP ’23.

    • 引用位置: A1 主要贡献
    • 原文描述: "These frameworks typically integrate advanced distributed engines to enhance efficiency—employing vLLM (Kwon et al., 2023) or SGLang (Zheng et al., 2024) as inference backends for LLM rollouts..."
  3. 【Zheng et al., 2024】: Zheng, L., Yin, L., Xie, Z., et al. (2024). Sglang: Efficient execution of structured language model programs. arXiv preprint arXiv:2312.07104.

    • 引用位置: A1 主要贡献
    • 原文描述: "...employing vLLM (Kwon et al., 2023) or SGLang (Zheng et al., 2024) as inference backends for LLM rollouts..."
  4. 【Zhao et al., 2023】: Zhao, Y., Gu, A., Varma, R., et al. (2023). Pytorch fully sharded data parallel (fsdp): Experiences on scaling large-model training. PVLDB, 16(12).

    • 引用位置: A1 主要贡献
    • 原文描述: "...FSDP (Zhao et al., 2023) or Megatron-LM (Shoeybi et al., 2019) as training backends for LLM optimization..."
  5. 【Williams, 1992】: Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3-4).

    • 引用位置: A2 方法细节 (2.1)
    • 原文描述: "For clarity, we adopt the REINFORCE algorithm (Williams, 1992) as a general formulation of RL training..."
  6. 【Schulman et al., 2017】: Schulman, J., Wolski, F., Dhariwal, P., et al. (2017). Proximal policy optimization algorithms. CoRR, abs/1707.06347.

    • 引用位置: A2 方法细节 (2.1, 2.2), A3 背景知识 (算法)
    • 原文描述: "It’s worth noting that R(.) could be a learned reward model, as in PPO (Schulman et al., 2017)...", "Our method has been successfully applied to multiple most common used RL algorithms, including PPO (Schulman et al., 2017)...", "In on-policy learning, PPO (Schulman et al., 2017; Zheng et al., 2023) remains the standard for RL training of LLMs..."
  7. 【Mroueh et al., 2025】: Mroueh, Y., Dupuis, N., Belgodere, B., et al. (2025). Reinforcement learning with verifiable rewards: Grpo’s effective loss, dynamics, and success amplification. arXiv preprint, arXiv:2503.06639.

    • 引用位置: A2 方法细节 (2.1, 2.2), A4 实验环境, A3 背景知识 (算法)
    • 原文描述: "...or a reward function, as in GRPO (Mroueh et al., 2025), DAPO (Yu et al., 2025a), and GSPO (Zheng et al., 2025).", "Our method has been successfully applied to multiple most common used RL algorithms, including PPO..., GRPO (Mroueh et al., 2025)...", "To faithfully validate the robustness of the proposed method, we apply APRIL to the two most widely used RL algorithms: GRPO (Mroueh et al., 2025) and DAPO (Yu et al., 2025a).", "To address these issues, GRPO (Shao et al., 2024; Mroueh et al., 2025) removes the explicit value network..."
  8. 【Yu et al., 2025a】: Yu, Q., Zhang, Z., Zhu, R., et al. (2025a). Dapo: An open-source llm reinforcement learning system at scale. arXiv preprint, arXiv:2503.14476.

    • 引用位置: A2 方法细节 (2.1, 2.2), A4 实验环境
    • 原文描述: "...as in GRPO (Mroueh et al., 2025), DAPO (Yu et al., 2025a), and GSPO (Zheng et al., 2025).", "Our method has been successfully applied to... DAPO (Yu et al., 2025a), and GSPO (Zheng et al., 2025).", "we apply APRIL to... GRPO (Mroueh et al., 2025) and DAPO (Yu et al., 2025a)."
  9. 【Zheng et al., 2025】: Zheng, C., Liu, S., Li, M., et al. (2025). Group sequence policy optimization. arXiv preprint arXiv:2507.18071.

    • 引用位置: A2 方法细节 (2.1, 2.2), A3 背景知识 (算法)
    • 原文描述: "...DAPO (Yu et al., 2025a), and GSPO (Zheng et al., 2025).", "...DAPO (Yu et al., 2025a), and GSPO (Zheng et al., 2025).", "Building on this, DAPO (Yu et al., 2025b) and GSPO (Zheng et al., 2025) extend GRPO to overcome its limitations."
  10. 【Mnih et al., 2016】: Mnih, V., Badia, A. P., Mirza, M., et al. (2016). Asynchronous methods for deep reinforcement learning. arXiv preprint arXiv:1602.01783.

    • 引用位置: A3 背景知识 (RL框架架构)
    • 原文描述: "This architectural evolution builds on earlier advancements in classical methods, notably Asynchronous Advantage Actor-Critic (A3C) (Mnih et al., 2016) and IMPALA (Espeholt et al., 2018)..."
  11. 【Espeholt et al., 2018】: Espeholt, L., Soyer, H., Munos, R., et al. (2018). Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures. arXiv preprint arXiv:1802.01561.

    • 引用位置: A3 背景知识 (RL框架架构)
    • 原文描述: "...notably Asynchronous Advantage Actor-Critic (A3C) (Mnih et al., 2016) and IMPALA (Espeholt et al., 2018)..."
  12. 【Yu et al., 2022】: Yu, G.-I., Jeong, J. S., Kim, G.-W., et al. (2022). Orca: A distributed serving system for Transformer-Based generative models. In 16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22).

    • 引用位置: A3 背景知识 (Rollout优化)
    • 原文描述: "Recently, some optimizations have been introduced, for instance, Yu et al. (2022) proposed continuous batching..."
  13. 【Yan et al., 2025】: Yan, J., Li, Y., Hu, Z., et al. (2025). Learning to reason under off-policy guidance. arXiv preprint arXiv:2504.14945.

    • 引用位置: A3 背景知识 (算法)
    • 原文描述: "For example, LUFFY (Yan et al., 2025) augments on-policy RL with off-policy reasoning traces..."