Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library

发表时间: 2025-06 · arXiv:2506.06122 (Alibaba ROLL Team)

ROLL团队
https://github.com/alibaba/ROLL

A1 主要贡献

为了应对现有强化学习(RL)训练框架在效率、可扩展性和可用性方面的挑战,本文介绍了ROLL(Reinforcement Learning Optimization for Large-scale Learning),一个为大规模学习设计的、高效、可扩展且用户友好的强化学习优化库。ROLL旨在服务三类主要用户群体:追求高性价比、容错的大规模训练的技术先驱;需要灵活控制训练工作流的开发者;以及寻求敏捷实验的算法研究者。

核心问题与研究目标
现有用于大型语言模型(LLM)的RL优化算法,如基于人类反馈的强化学习(RLHF)、基于可验证奖励的强化学习(RLVR)和多轮智能体交互的强化学习,通常需要维护多个LLM并协调一个多阶段的训练流程(生成、推理、训练)。这给效率、可扩展性和易用性带来了挑战。尽管已有如single-controller、colocation和disaggregated等系统设计来加速训练,但仍有提升空间。ROLL的目标是提供一个统一的库,通过一系列关键模块,有效解决上述挑战,服务于不同用户群体的需求。

创新点与核心模块
ROLL通过以下关键模块实现其功能,以服务不同的用户群体:
1. 简化的训练流程开发:采用单控制器(single-controller)架构,并结合对并行工作者(Parallel Worker)的适当抽象,简化了训练流程的开发。
2. 高效可扩展的训练:通过优化的并行策略(Parallel Strategy)和数据传输(Data Transfer)模块,实现了高效且可扩展的训练。
3. 精细化的生成管理:提供滚动调度器(Rollout Scheduler),在生成阶段对每个样本的生命周期进行细粒度管理。
4. 灵活的实验支持:通过环境工作者(Environment Worker)和奖励工作者(Reward Worker),分别支持智能体RL算法和奖励设计的快速、灵活实验。
5. 灵活的资源分配:自动设备映射(AutoDeviceMapping)允许用户为不同阶段的不同模型灵活分配资源。

关键成果
- ROLL成功支持了一个超过2000亿总参数的专家混合(MoE)模型的内部训练,该训练在数千个GPU上不间断运行了约两周,展示了其可扩展性和容错能力。
- 通过在一个包含代码、数学和其他可验证领域的多领域任务上对ROLL进行基准测试,并针对三个智能体RL任务进行验证,证明了其在处理广泛RL场景中的可用性和有效性。

图1:针对三个主要用户群体,我们介绍了一个高效、可扩展且用户友好的库ROLL,它为大规模RL优化提供了特定的关键功能。
图1:针对三个主要用户群体,我们介绍了一个高效、可扩展且用户友好的库ROLL,它为大规模RL优化提供了特定的关键功能。

A3 背景知识

2.1 用于LLM的强化学习

强化学习(RL)是LLM后训练阶段采用的关键技术。此处简要介绍RL在LLM中的几个关键概念,以及训练LLM的RL工作流程。

关键概念。用于LLM的RL训练通常采用策略梯度方法,特别是PPO(Proximal Policy Optimization)及其变体。训练流程通常包括几个关键组件:一个生成响应的Actor模型、一个估计价值函数的Critic模型、一个防止与初始行为过度偏离的Ref模型,以及一个评估响应质量的Reward模型。对于给定的提示,Actor模型会持续生成一系列词元(token),直到满足终止条件,从而产生响应。在此背景下,模型生成的每个词元代表RL框架中的一个动作,优化目标是通过调整策略(即Actor)来最大化期望的累积奖励,以生成更符合人类偏好和任务需求的序列。参考模型(Ref)通常从Actor模型初始化,其权重在训练期间通常被冻结。它作为一种正则化,确保Actor模型不会过度偏离其初始状态。奖励模型(Reward)旨在提供一个信号,引导Actor生成符合特定目标(例如,人类偏好、工具使用、数学和代码推理)的响应。它可以在人工标注的偏好数据上使用LLM进行训练,或者我们可以使用基于规则的验证或沙箱执行来导出奖励值。Critic模型(Critic)估计RL中的价值函数,并评估当前状态(即到目前为止生成的文本序列)的预期未来奖励,以帮助减少策略梯度更新中的方差并指导Actor的策略优化。

优化工作流程。LLM的RL优化中的每次迭代包含生成、推理和训练三个阶段,具体如下:

生成阶段:Actor模型与环境互动,并为一批提示生成响应。此过程包括预填充(prefill)阶段、解码(decoding)阶段和环境互动阶段。预填充阶段是一个计算密集型(compute-bound)的GPU任务,它处理提示以计算其键值缓存(key-value cache)。解码阶段是一个内存密集型(memory-bound)的GPU任务,自回归地生成词元直到满足终止条件。环境互动阶段涉及执行复杂的环境,并促进这些环境与Actor模型之间的互动,这需要密集的CPU资源。

对于包括数学和代码推理在内的单轮任务,Actor模型通常只需要进行无状态的环境互动,仅包含预填充和解码阶段。在多轮任务(如工具使用)中,Actor模型会与环境进行多轮互动,使得环境互动阶段成为一个显著的性能瓶LEC。

在生成阶段,一个滚动(rollout)样本由预填充、解码和环境互动期间产生的词元组成,并用于后续的推理和训练阶段。在此阶段会生成一批响应以加速收敛,尽管这会带来巨大的计算开销。

推理阶段:在RL训练过程中,Actor模型生成的每个序列都通过参考模型(reference)、Critic模型和奖励模型(reward)的单次前向传播进行评估。参考模型提供KL散度惩罚以防止策略过度偏离,Critic模型估计价值分数用于优势计算(advantage computation),奖励模型则赋予质量分数。这些输出随后被结合起来计算最终的训练目标,该目标通常包括策略损失、价值损失和KL惩罚项。上述过程仅涉及预填充阶段,这是一个计算密集型过程。

一个例外情况是奖励计算。基于LLM的奖励计算可被视为预填充阶段,并在GPU上运行。可验证奖励(verifiable rewards)的计算,包括基于规则的数学验证和沙箱验证,类似于环境互动阶段,通常需要大量CPU资源来快速获取奖励目标。

训练阶段:Actor和Critic模型使用在生成阶段产生的样本和在推理阶段获得的奖励信号进行更新。更新后的参数会同步到下一次迭代的生成阶段。与生成和推理阶段相比,训练阶段通常消耗大量的GPU内存,并且需要各种LLM并行化策略以实现其高效执行。

2.2 用于RL增强的LLM的系统优化

训练。LLM训练可以通过5D并行来加速,包括数据并行(DP)【【46,Zero: memory optimizations toward training trillion parameter models,2020,SC20: International Conference for High Performance Computing, Networking, Storage and Analysis】,【76,Pytorch fsdp: experiences on scaling fully sharded data parallel,2023,arXiv preprint arXiv:2304.11277】】、张量并行(TP)【【59,Megatron-lm: Training multi-billion parameter language models using model parallelism,2019,arXiv preprint arXiv:1909.08053】】、流水线并行(PP)【【19,Gpipe: Efficient training of giant neural networks using pipeline parallelism,2019,Advances in neural information processing systems】】、上下文并行(CP)【【31,Sequence parallelism: Making 4d parallelism possible,2021,arXiv preprint arXiv:2105.13120】】和专家并行(EP)【【47,Deepspeed-moe: Advancing mixture-of-experts inference and training to power next-generation ai scale,2022,International conference on machine learning】】。此外,可以采用ZeRO【【46,Zero: memory optimizations toward training trillion parameter models,2020,SC20: International Conference for High Performance Computing, Networking, Storage and Analysis】】、激活重计算【【9,Training deep nets with sublinear memory cost,2016,arXiv preprint arXiv:1604.06174】】和卸载【【48,{Zero-offload}: Democratizing {billion-scale} model training,2021,2021 USENIX Annual Technical Conference (USENIX ATC 21)】】来减轻内存开销。

推理/生成。许多高效的LLM服务框架,包括SGLang【【56,Sglang: Fast serving framework for large language models,2025,https://github.com/sgl-project/sglang】】和vLLM【【24 ,Efficient memory management for large language model serving with pagedattention,2023,Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles】】,都高效地支持DP、TP、PP和EP。此外,许多LLM服务优化工作优化了注意力计算【【29,Distflashattn: Distributed memory-efficient attention for long-context llms training,2023,arXiv preprint arXiv:2310.03294】,【34,MMIference: Accelerating pre-filling for longcontext vlms via modality-aware permutation sparse attention,2025,Forty-second International Conference on Machine Learning】】和KV缓存使用【【38,Kivi: A tuning-free asymmetric 2bit quantization for kv cache,2024,arXiv preprint arXiv:2402.02750】,【17,Kvquant: Towards 10 million context length llm inference with kv cache quantization,2024,arXiv preprint arXiv:2401.18079】,【13,Rethinking key-value cache compression techniques for large language model serving,2025,CoRR】】。

RL优化。用于LLM的RL训练拥有独特的计算过程,包括生成、推理和训练,以及不同规模的LLM。具体来说,Actor模型执行生成和训练阶段,Critic模型执行训练和推理阶段,Ref模型执行推理阶段,Reward模型执行推理阶段。因此,可以为不同阶段的不同模型量身定制不同的并行策略,以最大化整体性能。NeMo【【15,NeMo: a toolkit for Conversational AI and Large Language Models,2025,https://github.com/NVIDIA/NeMo】】和OpenRLHF【【18 ,Openrlhf: An easy-to-use, scalable and high-performance rlhf framework,2024,arXiv preprint arXiv:2405.11143】】将GPU集群划分为几个分区,并将它们分配给不同阶段。在每个阶段,它们使用优化的并行策略运行LLM。为了提高资源利用率,Verl【【58,Hybridflow: A flexible and efficient rlhf framework,2024,arXiv preprint arXiv: 2409.19256】】、RLHFuse【【77,Rlhfuse: Efficient rlhf training for large language models with inter- and intra-stage fusion,2024,https://arxiv.org/abs/2409.13221】】、ReaL【【41 ,Realhf: Optimized rlhf training for large language models through parameter reallocation,2024,arXiv preprint arXiv:2406.14088】】和PUZZLE【【28,{PUZZLE}: Efficiently aligning large language models through {Light-Weight} context switch,2024,2024 USENIX Annual Technical Conference (USENIX ATC 24)】】将不同阶段的LLM共置于同一资源池中。StreamRL【【78,Streamrl: Scalable, heterogeneous, and elastic rl for llms with disaggregated stream generation,2025,https://arxiv.org/abs/2504.15930】】提出将训练和生成阶段解耦,并以流水线方式异步运行生成和训练阶段。此外,由于推理集群中的高内存带宽优势,可以加速滚动生成 。

2.3 RL算法

基于人类反馈的强化学习。RL优化在LLM领域的早期成功在于引导LLM获得人类偏好。在早期阶段,基于人类反馈的强化学习(RLHF)方法主要集中于直接从人类奖励中学习【【21,Learning from Human-generated Reward,2012,The University of Texas at Austin】,【22,Interactively shaping agents via human reinforcement: The TAMER framework,2009,Proceedings of the International Conference on Knowledge Capture (K-CAP)】】、从动作建议中学习【【39,Giving advice about preferred actions to reinforcement learners via knowledge-based kernel regression,2005,Proceedings of the AAAI Conference on Artificial Intelligence】】或从动作评价中学习【【20,Reinforcement Learning Via Practice and Critique Advice,2010,Proceedings of the AAAI Conference on Artificial Intelligence】】。例如,TAMER【【70,Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces,2018,Proceedings of the AAAI Conference on Artificial Intelligence】】将人类反馈解释为最优动作价值函数的样本。COACH【【6,Deep Reinforcement Learning from Policy-Dependent Human Feedback,2019,arXiv: 1902.04257. preprint】】以一种依赖于策略的方式考虑人类反馈。最近,在ChatGPT发布后,许多RLHF方法【【45,Training language models to follow instructions with human feedback,2022,Advances in Neural Information Processing Systems】,【53,Proximal policy optimization algorithms,2017,arXiv preprint arXiv:1707.06347】】被提出来使LLM与人类偏好和价值观对齐,这通常包括三个阶段:监督微调、奖励模型训练和策略优化。然而,这些RLHF方法需要大量人工标注的样本来训练奖励模型,这阻碍了它们的广泛应用。

基于可验证奖励的强化学习。一些研究者【【74,Star: Bootstrapping reasoning with reasoning,2022,Advances in Neural Information Processing Systems】,【75,Openrft: Adapting reasoning foundation model for domain-specific tasks with reinforcement fine-tuning,2024,arXiv preprint arXiv:2412.16849】,【25,T\” ulu 3: Pushing frontiers in open language model post-training,2024,arXiv preprint arXiv:2411.15124】,【10,Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,2025,arXiv preprint arXiv:2501.12948】,【73,Dapo: An open-source llm reinforcement learning system at scale,2025,https://arxiv.org/abs/2503.14476】】在一些表征推理任务(例如,数学、代码)上提出了基于可验证奖励的强化学习(RLVR)。具体来说,这些推理任务的准确性通常由最终答案是否正确来决定。这种方法源于这样一个事实:可靠地评估中间步骤仍然很困难,特别是当这些步骤缺乏带标签的基准真相时。例如,研究人员通常采用基于规则的策略来评估数学任务中的解决方案,而在编码任务中,他们使用沙箱来判断生成的代码是否成功通过所有测试用例。在某些情况下,很难获得答案的正确性,因此采用了LLM-as-a-Judge【【60 ,Llm-as-a-judge and reward model: What they can and cannot do,2024,https://arxiv.org/abs/2409.11239】】,即使用一个LLM来判断生成答案的正确性。最近,动态采样【【73 ,Dapo: An open-source llm reinforcement learning system at scale,2025,https://arxiv.org/abs/2503.14476】】策略被广泛用于根据难度过滤样本并提高推理性能 。

基于多轮智能体交互的强化学习。与单轮设置(LLM仅执行单次响应生成而没有持续的环境交互)不同,多轮RL针对的是更真实的智能体场景【【80,ArCHer: Training language model agents via hierarchical multi-turn RL,2024,Forty-first International Conference on Machine Learning】,【4,LMRL gym: Benchmarks for multi-turn reinforcement learning with language models,2025,https://openreview.net/forum?id=EdKSI2ijUY】】。具体来说,基于LLM的智能体需要执行一系列动作来完成某些任务,例如管理终端【【37 ,Agentbench: Evaluating LLMs as agents,2024,The Twelfth International Conference on Learning Representations】】、遍历基于Web的界面【【79,Webarena: A realistic web environment for building autonomous agents,2024,The Twelfth International Conference on Learning Representations】】。环境执行缓慢、从动作中获取奖励反馈困难,以及环境与LLM之间复杂的交互,共同对在多轮智能体交互场景中采用LLM的RL优化构成了重大挑战。

A3 关键特性

我们提供了几个关键特性来支持高效的执行和用户友好的RL开发。接下来,我们将从用户群体的维度讨论这些关键特性。特别地,我们关注技术先驱、产品开发者和算法研究者的用户体验。此外,我们还将详细阐述智能体RL训练流程的规范。

3.1 技术先驱

追求领先地位与大规模训练。技术先驱寻求在LLM社区中扮演领导角色,他们拥有大规模的GPU集群以支持LLM的可扩展RL训练。ROLL的优势体现在三个方面,以吸引此类用户群体。

  • 快速且成本效益高:ROLL可以充分利用高性能硬件资源来加速RL训练,并在大型GPU集群中实现可观的训练成本和时间缩减。
  • 可扩展性与容错性:ROLL支持广泛的LLM训练和服务优化技术,能够在一个200B参数的模型上,跨越数千个GPU进行约两周不间断的可扩展训练。它还具有高效的检查点和恢复机制,允许以最小的工程努力重启训练任务。
  • 灵活的硬件使用:ROLL支持在多种硬件类型上运行RL训练。用户可以选择共置(colocation)或分离(disaggregation),并配置同步或异步执行模式,以充分利用不同硬件架构的优势。

3.2 产品开发者

专注于业务与能力增强。产品开发者拥有足够的GPU来进行内部LLM的RL训练,他们专注于配置任务和奖励,以增强LLM的人类对齐、推理能力、工具使用和业务指标。我们推荐产品开发者选择ROLL,原因如下。

  • 多样化且可扩展的奖励/环境:ROLL实现了一系列奖励工作者(Reward Workers)和环境工作者(Environment Workers)。产品开发者可以基于我们现有的实现,轻松定制自己的奖励和环境。
  • 组合式样本-奖励路由:ROLL提供了一个用户友好的界面,用于控制不同任务的提示采样比例,并动态地将每个样本路由到相应的奖励工作者(例如,数学验证器、沙箱环境和LLM-as-a-judge)。由于生产级LLM通常包含多种多样的能力,这一特性使开发者能够在混合的领域和任务中优化模型性能。
  • 便捷的设备-奖励映射:ROLL开发了设备-奖励映射接口,可轻松配置奖励工作者的设备映射。此功能将奖励计算与多任务RL训练中的其他计算工作负载隔离开来,防止了干扰和性能瓶颈。
  • 丰富的训练配方:ROLL提供了各种RL算法、LLM、任务和数据集,以减少开发新训练功能所需的工程量。
  • 卓越的性能:ROLL包含一系列经过调优的训练配置,这些配置在许多任务上都达到了令人满意的性能,减轻了繁琐的超参数搜索负担。

3.3 算法研究者

资源有限但追求灵活实验。大多数算法研究者只能接触到数量有限的GPU,他们需要对LLM的RL训练的每个组件进行灵活、细粒度的控制,以便高效地实验新想法。ROLL非常适合这一目的,提供了以下关键特性。

  • 受限设备执行:ROLL通过一系列内存优化技术,包括单GPU设置,实现了在受限GPU资源上的高效训练。这使得算法研究者能够进行多次试错实验并及时获得反馈,而无需大量高级GPU。
  • 可插拔的推理流程:ROLL以适当的粒度抽象了RL训练流程的每个阶段,从而能够对新想法进行敏捷实验。研究人员可以灵活地编排各个阶段的执行,便于实现和定制多样的RL算法。
  • 透明的实验过程:ROLL提供透明的日志记录和监控功能,使其易于跟踪和分析每次实验。
  • 公平的学术基线:ROLL提供经典的算法、模型和任务,以促进在标准基准上进行公平的基线比较。

3.4 智能体RL规范

应对智能体RL的兴起。近期智能体RL的兴起要求对基于智能体的LLM RL训练提供高效支持。为解决此问题,我们为ROLL配备了以下特性,以实现可扩展的智能体RL训练。

图2:(a) ROLL的架构,包括用户输入层、分布式执行器与调度器、自动设备映射模块和资源池。(b) ROLL的运行时设置和训练工作流程。
图2:(a) ROLL的架构,包括用户输入层、分布式执行器与调度器、自动设备映射模块和资源池。(b) ROLL的运行时设置和训练工作流程。
  • 可扩展的多轮智能体-环境交互:受RAGEN【【69,Ragen: Understanding self-evolution in llm agents via multi-turn reinforcement learning,2025,https://arxiv.org/abs/2504.20073】】的启发,ROLL支持智能体与环境之间的多轮交互,可扩展至长时程任务 。
  • 样本级可扩展环境:ROLL灵活地执行环境扩展,以匹配输入样本的大小,从而实现高吞吐量的滚动(rollout)。
  • 异步并行的智能体-环境交互:ROLL通过样本级的环境管理,异步执行环境和Actor生成,并通过环境扩展实现并行化环境执行,从而减少GPU空闲时间并最大化资源利用率。

A2 方法细节

本节我们将讨论ROLL的设计,以支撑第3节中讨论的相关关键特性。

4.1 系统架构和模块

架构。图2a展示了ROLL的架构。ROLL接收用户定义的RL数据流图及其相关配置作为输入。基于此输入,分布式执行器和调度器负责编排工作者(workers)和调度器(schedulers)。AutoDeviceMapping模块管理已配置的资源池内的资源,并高效地将工作者和调度器绑定到其分配的资源上。

并行工作者 (Parallel Worker)。并行工作者是一个资源集合(即Ray中的PlacementGroup)的所有者,ROLL使用集群(Cluster)来表示一组在RL训练中扮演相同角色(例如,Actor训练、Critic推理)的并行工作者,以简化对这些工作者的集体管理。ROLL提供了几种类型的并行工作者。Actor工作者(Actor Worker)可以被实例化为Actor或Ref。Critic工作者(Critic Worker)实现Critic的功能,而奖励工作者(Reward Worker)处理Reward组件,提供包括基于规则的验证【【16,Deepmath-103k: A large-scale, challenging, decontaminated, and verifiable mathematical dataset for advancing reasoning,2025,arXiv preprint arXiv:2504.11456】】、沙箱执行【【11,Multi-programming language sandbox for llms,2024,https://arxiv.org/abs/2410.23074】】和LLM-as-a-Judge【【60 ,Llm-as-a-judge and reward model: What they can and cannot do,2024,https://arxiv.org/abs/2409.11239】】等多种奖励计算方法。环境工作者 (Environment Worker)支持各类环境与LLM之间的多轮交互。

并行策略 (Parallel Strategy)。ROLL中的RL训练包含训练、推理和生成三个阶段。我们集成了MegatronCore和DeepSpeed来加速LLM训练,支持包括DP、PP、TP、CP和EP在内的高级5D并行策略。得益于DeepSpeed【【47,Deepspeed-moe: Advancing mixture-of-experts inference and training to power next-generation ai scale,2022,International conference on machine learning】】,ROLL还支持ZeRO2、ZeRO3和ZeRO-offload【【48,{Zero-offload}: Democratizing {billion-scale} model training,2021,2021 USENIX Annual Technical Conference (USENIX ATC 21)】】。此外,我们提供梯度检查点(gradient checkpointing)和卸载(offloading)策略,以显著减少GPU内存消耗,从而能够在资源受限的设备上高效执行。对于推理和生成阶段,我们集成了vLLM【【24,Efficient memory management for large language model serving with pagedattention,2023,Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles】】和SGLang【【56,Sglang: Fast serving framework for large language models,2025,https://github.com/sgl-project/sglang】】,为ROLL配备了TP、EP、PP以加速推理和生成阶段 。

滚动调度器 (Rollout Scheduler)。滚动调度器允许用户在生成阶段以单个样本(而非批次)的粒度来调度每个请求的生命周期。特别地,滚动调度器可以根据当前资源可用性和响应生成的进度,动态地添加和中止请求。

数据传输 (Data Transfer)。传输协议(Transfer Protocol)首次在HybridFlow【【58,Hybridflow: A flexible and efficient rlhf framework,2024,arXiv preprint arXiv: 2409.19256】】中引入,我们重用它来对不同阶段的输入和输出数据进行重分片(reshard)。模型更新组(ModelUpdateGroup)的实现旨在支持训练和生成/推理阶段之间的快速参数同步,该功能由NCCL通信后端支持,即使在共置训练场景中也是如此。

自动设备映射 (AutoDeviceMapping) 和资源池 (Resource Pool)。AutoDeviceMapping模块负责协调资源池中的一组CPU和GPU资源,并将它们绑定到工作者和调度器。

4.2 系统工作流程

图2b描绘了工作流程,包括运行时设置(顶部)和训练迭代(底部)。

运行时设置。ROLL根据提供的设备配置,提供一个包含GPU和CPU资源的资源池。在RL数据流的指导下,它创建一个滚动调度器和多个并行工作者。滚动调度器在生成阶段监督每个提示样本请求的生命周期。基于训练和模型配置,ROLL实例化并行策略,以决定每个并行工作者的并行化策略和执行后端。一旦并行工作者建立,ROLL遵循用户指定的设备映射配置,并使用AutoDeviceMapping从资源池中为相应的并行工作者分配资源。

训练迭代。在生成阶段,一批样本首先被送入滚动调度器以生成响应。在此阶段,Actor模型可能会与环境工作者(EnvironmentWorker)交互,以在智能体RL任务中执行多轮环境交互。它还会调用奖励工作者(Reward Worker)来计算奖励信号,从而实现高级采样技术(例如,动态采样【【73,Dapo: An open-source llm reinforcement learning system at scale,2025,https://arxiv.org/abs/2503.14476】】)以提高采样效率 。

随后的推理阶段涉及Critic、Reward和Ref模型的前向传播,前提是它们在RL数据流图中被激活。然后,传输协议(Transfer Protocol)将来自生成阶段的响应进行分片,并将其提供给每个活动的并行工作者。

在训练阶段,Critic和Actor模型使用准备好的奖励信号更新其参数。此外,Actor模型还通过模型更新组(ModelUpdateGroup)在下一次训练迭代中与生成阶段同步模型参数。

4.3 如何支撑关键特性

我们解释ROLL中的系统模块如何支持第3节中讨论的关键特性。

单控制器流水线。我们遵循HybridFlow【【58,Hybridflow: A flexible and efficient rlhf framework,2024,arXiv preprint arXiv: 2409.19256】】的混合编程模型,在单个控制器内实现RLHF、RLVR和智能体RL的训练流水线,从而简化了RL训练工作流的开发和管理。

用于RL流水线的Worker抽象。并行工作者(Parallel Worker)和滚动调度器(RolloutScheduler)的抽象使用户能够通过遵循我们提供的训练工作流示例,以最小的工程努力来定义和试验新的流水线。特别是,Actor工作者、Critic工作者、奖励工作者和环境工作者封装了RL训练中的不同角色。这种明确定义的抽象允许用户专注于开发和定制单个组件,而无需彻底改造整个代码库。

优化的LLM执行。我们充分利用现有LLM执行引擎(包括DeepSpeed、Megatron、vLLM和SGLang)的先进功能,以促进在大型GPU集群和资源受限的设备环境中进行RL优化。

用户定义的设备映射。先前的RL系统,包括OpenRLHF【【18,Openrlhf: An easy-to-use, scalable and high-performance rlhf framework,2024,arXiv preprint arXiv:2405.11143】】和NeMo【【5,Nemotron-crossthink: Scaling self-learning beyond math reasoning,2025,arXiv preprint arXiv:2504.13941】】,在不同训练阶段强制实施独占资源使用。近期的研究工作【【58,Hybridflow: A flexible and efficient rlhf framework,2024,arXiv preprint arXiv: 2409.19256】,【77,Rlhfuse: Efficient rlhf training for large language models with inter- and intra-stage fusion,2024,https://arxiv.org/abs/2409.13221】】支持将不同阶段的LLM共置在同一设备组内。在ROLL中,AutoDeviceMapping模块支持灵活的、用户定义的设备映射,允许单个设备被来自不同阶段的多个LLM共享。这使用户能够将分配给Actor模型生成阶段的一部分GPU重新分配给其训练阶段,从而提高整体资源利用率 。

此能力源于两个关键功能。首先,ROLL是在Ray【【43,Ray: A distributed framework for emerging AI applications,2018,13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18)】】之上实现的,这使我们能够将每个设备绑定到特定的工作者,同时也允许多个工作者共享同一设备。其次,模型更新组(ModelUpdateGroup)促进了跨不同阶段的模型同步。如前所述,一组在RL训练中共享相同LLM角色的并行工作者可以被组织成一个集群(Cluster)。一旦在Actor训练集群和Actor推理集群之间同步模型参数,训练阶段的每个工作者会将其模型参数以分桶块(bucketed chunks)的形式广播到生成阶段的相应工作者,从而提高传输速度。这种设计避免了强制要求训练和推理过程共置,从而支持比以往的RL系统【【5,Nemotron-crossthink: Scaling self-learning beyond math reasoning,2025,arXiv preprint arXiv:2504.13941】,【18,Openrlhf: An easy-to-use, scalable and high-performance rlhf framework,2024,arXiv preprint arXiv:2405.11143】,【58,Hybridflow: A flexible and efficient rlhf framework,2024,arXiv preprint arXiv: 2409.19256】,【77,Rlhfuse: Efficient rlhf training for large language models with inter- and intra-stage fusion,2024,https://arxiv.org/abs/2409.13221】】更灵活的用户定义设备映射 。

样本级滚动生命周期控制。大多数RL系统【【5,Nemotron-crossthink: Scaling self-learning beyond math reasoning,2025,arXiv preprint arXiv:2504.13941】,【18,Openrlhf: An easy-to-use, scalable and high-performance rlhf framework,2024,arXiv preprint arXiv:2405.11143】,【58,Hybridflow: A flexible and efficient rlhf framework,2024,arXiv preprint arXiv: 2409.19256】,【77,Rlhfuse: Efficient rlhf training for large language models with inter- and intra-stage fusion,2024,https://arxiv.org/abs/2409.13221】】在生成阶段处理一批提示样本以提高吞吐量。然而,生成阶段的长尾问题【【77 ,Rlhfuse: Efficient rlhf training for large language models with inter- and intra-stage fusion,2024,https://arxiv.org/abs/2409.13221】】导致不同工作者之间的资源利用不均衡。为了解决这个问题,滚动调度器 (Rollout Scheduler)在生成阶段提供了以每个提示样本为粒度的请求滚动生命周期控制。

ROLL提供的动态采样优化是样本级滚动生命周期控制成功应用的一个例子。动态采样指的是过采样提示并过滤掉准确度得分为1或0的样本,只保留那些能贡献有效梯度的样本的策略。样本级滚动生命周期控制可以在三个关键方面显著加速动态采样。(1) 异步奖励计算:ROLL通过立即为已完成的样本启动奖励计算,而不是等待批次中所有提示完成响应生成,从而消除了生成和奖励计算阶段之间的同步障碍。(2) 添加请求:ROLL持续监控工作者的完成状态,并根据实时需求动态分派新的提示样本,从而提高资源利用率。(3) 中止请求:一旦产生有效梯度的提示数量达到目标阈值,ROLL可以主动终止其他正在进行的响应生成任务,减少不必要的生成开销。

样本级奖励和环境管理。图2b中训练工作流的生成阶段描述了异步奖励计算和异步环境交互。ROLL可以根据工作负载规模,生成多个奖励工作者(Reward Workers)和环境工作者(Environment Workers),并将它们分布在资源池中以防止性能瓶颈。样本级滚动生命周期控制允许用户灵活地将每个样本路由到相应的奖励工作者和环境工作者。

ROLL利用Ray支持异步奖励计算。在RL训练期间,可以激活多种类型的奖励工作者,包括基于规则的验证、沙箱执行和LLM-as-a-Judge。这些工作者根据当前的作业负载在运行时动态执行奖励计算,而样本级滚动控制允许根据需要灵活地、组合式地将样本路由到适当的奖励工作者。由于AutoDeviceMapping的存在,每个奖励工作者都被分配到用户指定的设备上,从而简化了奖励模块到硬件资源的分配。

与奖励工作者类似,ROLL分配足够的资源来部署可扩展的环境工作者,并促进Actor模型与环境之间的大规模高效交互。此外,它支持并行化的环境交互,提高了环境吞吐量并减少了等待响应造成的延迟。样本级滚动生命周期控制允许Actor处理其他样本,而无需等待来自环境工作者的响应。在这种情况下,ROLL可以异步启动新的提示样本进行生成,从而防止资源利用不足。这种机制被称为异步环境交互。鉴于这些环境工作者可能是CPU密集型的,ROLL会仔细地将它们分布在可用的资源池中,以最小化与其他工作负载以及工作者之间的干扰。

A4 实验环境与结果

5.1 RLVR流水线

实验环境
- 数据集:实验数据从三个领域的成熟来源系统地整理而来:(1) 数学领域:DeepMath-103K【【16,Deepmath-103k: A large-scale, challenging, decontaminated, and verifiable mathematical dataset for advancing reasoning,2025,arXiv preprint arXiv:2504.11456】】,从中根据难度按比例采样5000个样本;(2) 代码领域:KodCode【【71,Kodcode: A diverse, challenging, and verifiable synthetic dataset for coding,2025,arXiv preprint arXiv:2503.02951】】,首先过滤掉低质量数据,然后根据难度均匀采样2000条记录;(3) 通用领域:Multi-subject-RLVR【【61,Crossing the reward bridge: Expanding rl with verifiable rewards across diverse domains,2025,arXiv preprint arXiv:2503.23829】】、Nemotron-CrossThink【【5,Nemotron-crossthink: Scaling self-learning beyond math reasoning,2025,arXiv preprint arXiv:2504.13941】】和RLVR-IFeval【【25,T\” ulu 3: Pushing frontiers in open language model post-training,2024,arXiv preprint arXiv:2411.15124】】,从中特意移除了低质量数据。
- 模型与训练设置:实验使用了两个LLM:Qwen2.5-7B-base和Qwen3-30B-A3B-base。策略优化采用PPO损失,其中优势值使用REINFORCE回报计算,而非基于GAE的估计【【52,High-dimensional continuous control using generalized advantage estimation,2015,arXiv preprint arXiv:1506.02438】】。跨领域的采样比例设置为数学40%,代码30%,通用推理30%。我们整合了基于规则的验证、代码的沙箱执行,以及通用推理的基于规则验证和LLM-as-a-judge。

实验结果
- Qwen2.5-7B-Base:如图3所示,模型在所有任务上的平均准确率从0.18上升到0.52,提升了2.89倍。在数学推理(从0.20到0.53)和代码生成(从0.13到0.41)任务上取得了显著增益,验证了ROLL在特定任务上的正确性和有效性。
- Qwen3-30B-A3B-Base:如图4所示,该模型的准确率从0.27提升到0.62,增长了2.30倍。尽管这个采用专家混合架构的模型在训练中准确率波动比Qwen2.5-7B-Base模型更大,但仍显示出清晰的上升趋势,并最终取得了更优的性能。
- 结论:两个模型在整个训练过程中都表现出稳定和持续的准确率提升,且未出现模型崩溃,表明ROLL具有鲁棒性和实用性。

图3:Qwen2.5-7B-Base在不同任务上的准确率趋势。
图3:Qwen2.5-7B-Base在不同任务上的准确率趋势。
图4:Qwen3-30B-A3B-Base在不同任务上的准确率趋势。
图4:Qwen3-30B-A3B-Base在不同任务上的准确率趋势。

5.2 智能体流水线

我们在三个不同的环境中进行了广泛的实验,以严格评估我们的智能体流水线的能力和适应性。

5.2.1 Sokoban(推箱子)

实验环境
- 环境配置:Sokoban是一个经典的益智游戏,智能体需要将箱子推到网格内的目标位置。我们配置了三个变体:(1) SimpleSokoban,一个6x6网格和一个箱子;(2) LargerSokoban,一个8x8网格和两个箱子;(3) SokobanDifferentGridVocab,一个使用不同符号的6x6网格。允许的动作为方向移动(上、下、左、右)。
- 模型与训练设置:使用Qwen2.5-0.5B-Instruct作为基础模型。训练任务分布在8个GPU上,滚动批大小为1024。策略优化采用PPO损失,优势值使用REINFORCE回报计算,并设置优势值裁剪为10.0,奖励裁剪为20以保持训练稳定。应用了权重为-0.001的格式惩罚,以鼓励格式正确的动作输出。

实验结果
- 如图5所示,在SimpleSokoban环境中,模型性能获得显著提升。训练中的成功率从16.8%增加到26.0%。验证环境中的成功率从13.3%上升到35.2%,有效动作的比例从43.6%增长到73.4%,表明智能体能力稳步提升。此外,这些增益很好地泛化到了FrozenLake环境中,证明了我们RL训练框架的鲁棒性。

PROTECTED_IMAGE_5____PROTECTED_IMAGE_6

5.2.2 FrozenLake(冰湖)

实验环境
- 环境配置:FrozenLake环境要求智能体在结冰的湖面上从起点导航到目标点,同时避开冰洞。可选的滑冰机制通过导致意外移动引入了随机性,从而挑战智能体对不确定性的适应能力。
- 模型与训练设置:为保持一致性,我们使用了与Sokoban环境中相同的Qwen2.5-0.5B-Instruct模型和训练配置。

实验结果
- 如图6所示,在FrozenLake环境中,模型表现出稳步的性能提升。训练中的成功率从16.8%增加到峰值26.0%,提升了55%。同时,有效动作的比例从69.1%上升到峰值88.8%,表明训练过程中动作质量得到增强。在验证集上,成功率也呈现出相应的模式,从训练初期的12.9%上升到最高23.8%。同时,模型还表现出跨环境的迁移学习能力,尽管只在FrozenLake上训练,但在SimpleSokoban验证集上的成功率达到了23.8%。

5.2.3 WebShop(网络商店)

实验环境
- 环境配置:WebShop环境模拟一个在线购物任务,智能体使用自然语言指令寻找特定产品。智能体执行迭代动作,包括关键词搜索、选择产品链接、检查产品详情(如描述、特性、尺寸、颜色)和做出购买决策。动作因网页上下文而异,每个轨迹限制在50步内,凸显了决策和指令遵循能力的复杂性。
- 模型与训练设置:使用Qwen-2.5-7B-Instruct模型在WebShop环境中进行训练,以支持长交互和丰富上下文。序列长度设置为8192个词元。我们保留了REINFORCE算法,并使用相同的裁剪参数进行优势估计。我们将格式惩罚增加到-0.05,以鼓励格式良好的响应。

实验结果
- 如图7所示,任务成功率取得了显著提升,在训练和验证环境上均从37%增加到超过85%。每个回合的平均动作数从超过7步减少到约4步,表明LLM学会了更高效地完成任务。
- 结论:LLM能够有效地具备应对真实世界环境所需的任务能力和操作效率。

图7:WebShop环境训练的性能指标。AvgSteps表示完成任务所需的平均步数,步数越少意味着动作效率越高。
图7:WebShop环境训练的性能指标。AvgSteps表示完成任务所需的平均步数,步数越少意味着动作效率越高。

A5 结论

在本报告中,我们介绍了ROLL,一个旨在优化大规模LLM强化学习训练的框架。ROLL服务于三类主要用户群体:技术先驱、产品开发者和RL研究者。ROLL的核心建立在一套系统模块之上,包括并行工作者(Parallel Worker)、滚动调度器(Rollout Scheduler)、并行策略(Parallel Strategy)和自动设备映射(AutoDeviceMapping),这些共同构成了ROLL的基础。我们广泛的实证评估证明了ROLL在加速和扩展LLM的RL训练方面的有效性。

A7 作者

在每个角色中,作者按字母顺序列出。

项目负责人
- 王维巡 (Weixun Wang)
- 熊少攀 (Shaopan Xiong)

核心贡献者
- 陈庚儒 (Gengru Chen)
- 高伟 (Wei Gao)
- 郭晟 (Sheng Guo)
- 何彦程 (Yancheng He)
- 黄炬 (Ju Huang)
- 刘家衡 (Jiaheng Liu)
- 李振东 (Zhendong Li)
- 李晓阳 (Xiaoyang Li)
- 刘子晨 (Zichen Liu)
- 赵海洲 (Haizhou Zhao)

贡献者
- 安大凯 (Dakai An)
- 曹伦溪 (Lunxi Cao)
- 曹启扬 (Qiyang Cao)
- 邓皖西 (Wanxi Deng)
- 杜飞蕾 (Feilei Du)
- 谷一亮 (Yiliang Gu)
- 李嘉禾 (Jiahe Li)
- 李翔 (Xiang Li)
- 刘明杰 (Mingjie Liu)
- 罗一佳 (Yijia Luo)
- 刘子赫 (Zihe Liu)
- 王雅岛 (Yadao Wang)
- 王培 (Pei Wang)
- 吴天元 (Tianyuan Wu)
- 吴亚男 (Yanan Wu)
- 赵宇恒 (Yuheng Zhao)
- 赵帅兵 (Shuaibing Zhao)
- 杨瑾 (Jin Yang)
- 杨思然 (Siran Yang)
- 谭颖水 (Yingshui Tan)
- 易慧敏 (Huimin Yi)
- 徐玉池 (Yuchi Xu)
- 袁钰锦 (Yujin Yuan)
- 张兴尧 (Xingyao Zhang)

指导
- 曲林 (Lin Qu)
- 苏文博 (Wenbo Su)
- 王伟 (Wei Wang)
- 王嘉忙 (Jiamang Wang)
- 郑波 (Bo Zheng)