PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation

发表时间: 2025-09 · arXiv:2509.19128 (ServiceNow / Mila)

Alexandre Piché (ServiceNow AI Research), Ehsan Kamalloo (ServiceNow AI Research), Rafael Pardinas (ServiceNow AI Research), Xiaoyin Chen (Mila, Université de Montréal), Dzmitry Bahdanau (ServiceNow AI Research, Mila, McGill University)

A1 主要贡献（总结）

核心问题：随着大语言模型（LLM）被广泛应用于增强推理和智能体能力，如何高效扩展强化学习（RL）训练成为一个关键挑战。AI 加速器（如 GPU/TPU）只有在大批次生成时才能提供高吞吐量。若在传统 RL 中为了提高吞吐量而为多个优化器步骤生成数据，会导致训练策略与行为策略之间产生严重的滞后（lag），从而产生陈旧的偏策（off-policy）数据，这会极大损害常用 RL 算法（如 REINFORCE、PPO、GRPO）的性能。
研究目标：设计一种在硬件效率（吞吐量）和数据同策性（on-policyness）之间取得更优权衡的 LLM 强化学习训练框架。
创新点：提出 PipelineRL，通过并发异步的数据生成与模型训练，并引入了新型的在途权重更新（in-flight weight updates）机制。在生成过程中，生成引擎仅需短暂暂停即可通过高带宽网络接收更新后的权重，并在不中断正在生成的 token 序列的情况下继续生成，从而最大化了加速器利用率和数据新鲜度。
主要成果：在 128 个 H100 GPU 上的长文本推理任务中，PipelineRL 实现了比传统 RL 基线快约 2 倍的学习速度，同时保持了高度的同策性。此外，开源了一套可扩展且模块化的 PipelineRL 实现。

A3 背景知识/关键Observation/设计原则（缩写）

大语言模型强化学习建模：LLM 的权重可以被视为参数化多步策略 $\pi$，它在给定提示 $x$ 和之前生成的 token $y_{<i}$ 下分配下一个 token $y_i$ 的概率：<br />
策略梯度与重要性采样：在实践中，使用 REINFORCE 变体【Ahmadian et al., 2024, Back to basics: Revisiting REINFORCE style optimization for learning from human feedback in LLMs, arXiv】或【Roux et al., 2025, Tapered off-policy REINFORCE: Stable and efficient reinforcement learning for LLMs, arXiv】来最大化期望回报 $J(\pi)$。策略梯度估计公式为：

其中 $R(x_j, y_j)$ 为奖励，$v_\phi(x_j, y_{j,\le t})$ 为通过最小化均方误差学习到的价值函数。当当前策略 $\pi$ 与生成数据的行为策略 $\mu$ 存在差异时，通常使用重要性采样（IS）并对权重进行截断以降低方差【Munos et al., 2016, Safe and efficient off-policy reinforcement learning, NeurIPS】和【Espeholt et al., 2018, IMPALA: Scalable distributed deep-RL with importance weighted actor-learner architectures, ICML】：

使用归一化有效样本量（ESS）衡量重要性采样估计器的质量【Kong, 1992, A note on importance sampling using standardized weights, University of Chicago】和【Schlegel et al., 2019, Importance resampling for off-policy prediction, NeurIPS】以及【Fakoor et al., 2020, P3O: Policy-on policy-off policy optimization, UAI】：

其中 $w_i$ 为重要性权重。当 ESS 越接近 1 时，采样效率越高；过低的 ESS 会增加梯度估计方差，使训练不稳定。
传统强化学习（Conventional RL）的串行限制：大部分 RL 实现（如算法 1）在生成序列和训练策略之间交替进行。当训练包含 $G > 1$ 个优化器步骤时，当前策略 $\pi$ 将领先于生成数据的行为策略 $\mu$，两者的步数差距称为滞后（lag）。

# 传统RL的 Actor-Trainer 逻辑
# Actor 进程
def Actor():
    Sprog = [] # 在途序列
    while True:
        Sfin, Sprog = pop_finished_sequences(Sprog)
        Qtrain.put(Sfin)
        if len(Sprog) < H:
            add_prompts_to_Sprog(H - len(Sprog))
        if Trainer_requests_weight_update:
            μ = receive_weight_update()
        Sprog = generate_next_tokens_with(μ)

# Trainer 进程
def Trainer(π, opt_state):
    batch = []
    while True:
        request_actor_weight_update(π)
        batch = get_B_sequences_from(Qtrain)
        π, opt_state = optimizer_step(π, opt_state, batch)

大语言模型高效序列生成与批处理：Transformer 模型逐 token 生成序列。现代生成引擎（如 vLLM 和 SGLang）使用 PagedAttention【Kwon et al., 2023b, Efficient Memory Management for Large Language Model Serving with PagedAttention, SOSP】对序列批次进行管理。虽然大批次生成吞吐量最高，但在实际中，过大的批次会导致每序列延迟过高、KV 缓存超出显存或请求队列管理开销过大（如图 2 所示）。
传统 RL 的学习速度上限瓶颈：当 LLM 被训练用于数学推理等长序列生成任务时，单次生成可能会花费数分钟。学习速度的增长公式为 $\frac{\Delta R}{\Delta t} = \frac{\Delta R}{\Delta S} \frac{\Delta S}{\Delta t}$（学习效果 $\times$ 学习吞吐量）。在完全同策（$G=1$）时，学习效果最高，但因为 GPU 在小批大小（每张卡上的样本数 $\frac{B}{N}$）下运行，吞吐量较低，且增加 GPU 数量 $N$ 带来的回报递减（如图 2c 所示）。常用解决方法是通过增加 $G > 1$ 并在每个生成阶段生成 $BG$ 个样本来提高吞吐量，但过高的偏策度（大 $G$）会显著降低学习效果【Noukhovitch et al., 2024, Asynchronous RLHF: Faster and more efficient off-policy RL for language models, arXiv】。

A2 方法细节（缩写）

PipelineRL 并发异步与在途权重更新机制：PipelineRL 采用 Actor（生成）和 Trainer（训练）两个并发进程，它们通过样本队列和高带宽权重传输网络通信。其与传统 RL 的主要区别在于：（1）异步并行运行训练和生成阶段；（2）在每次优化器步之后，在不停止序列生成的情况下，在途（in-flight）更新生成权重。在途更新避免了等待最后一个序列完成的低效等待，确保了在恒定生成批大小下获得高加速器利用率，并使新生成 token 的策略紧跟当前策略（如图 1 所示）。
PipelineRL 与传统 RL 的偏策性与滞后特征对比：PipelineRL 的效果-吞吐量权衡与传统 RL 相反。增加加速器数量 $N$ 会线性增加吞吐量 $\frac{\Delta S}{\Delta t}$，但可能降低学习效果 $\frac{\Delta R}{\Delta S}$。图 3a 展示了 PipelineRL 产生混合策略序列，早期 token 的偏策性高于近期 token。增加 $N$ 会使早期 token 的滞后翻倍。PipelineRL 的所有批次偏策程度相同，而传统 RL 则是随步数增加而越来越偏策。
$图3：(a) 对于传统强化学习，token滞后随优化器步数增加而增加。在拥有N个加速器的PipelineRL中，token滞后在序列中是变化的，早期token的滞后更高。每个批次的滞后结构是相同的。在其他条件不变的情况下，PipelineRL加速器数量加倍会使早期token的滞后翻倍。(b) PipelineRL的吞吐量-效果权衡（作为训练加速器T的函数）与传统强化学习（作为滞后G的函数）的示意图。在相同的加速器数量N下，PipelineRL实现了更高的 $\frac{\Delta R}{\Delta S} \frac{\Delta S}{\Delta t}$。$
系统参数配置逻辑（训练加速器数量 $T$）：PipelineRL 的配置可简化为训练加速器数量 $T$（总数 $N$）。较大的 $T$ 会减少训练时间 $t_{train}$，决定了生成加速器 $N-T$ 所需的生成批大小 $H$。使用较小的 $H$ 会缩短最大生成延迟 $t_{gen}$，从而降低最大滞后 $g_{max} = \lceil t_{gen}/t_{train} \rceil$。推荐避免极端配置（$T$ 过高导致 lag 过大，或 $T$ 过低导致硬件利用率低）。
系统架构与流水线设计：基于分布式 vLLM 生成引擎和 DeepSpeed 训练器，分为 Actor、Preprocessor 和 Trainer 三阶段流水线（见图 4）。Preprocessor 阶段计算参考模型的对数概率。使用 Redis 作为流式代理。支持三个 API：/v1/chat/completions（用于生成）、/init_process_group（用于创建权重传输进程组）和 /request_weight_update（用于启动在途权重更新）。优化手段包括在线序列打包（online sequence packing）和环形缓冲区（ring buffers）。

A4 实验环境（总结）

数据集：OpenReasoner Zero 数据集，包含 17K 个数学问题，用于长文本推理任务。
模型架构关键参数：Qwen 2.5 Base 7B。
硬件配置：16 个 DGX-H100 节点（共 128 个 H100 GPU），48 个 GPU 用于生成（批大小 $H=64$），80 个 GPU 用于训练。传统 RL 基线通过在 2 个节点上生成（批大小 $H=64$）和 2 个节点上训练并进行节点数理论修正来估计。
软件配置：vLLM（生成）、DeepSpeed（训练，通过 accelerate 库）、Redis（流式通信）。
训练超参数：优化器步数 1000，训练批大小 $B=1024$（部分实验为 4096），Adam 优化器，学习率 1e-6，重要性权重裁剪上限为 5。

A4 实验结果（总结）

学习速度与吞吐量：PipelineRL 达到相同期望奖励的速度比 Conventional RL ($G=32$) 快约 2 倍（图 5a），这归功于其约 2 倍的样本吞吐量（图 5c）。
学习效果：在不同 $G$ 值（$G=8, 16, 32$）的对比中，PipelineRL 的 $R(S)$ 曲线与 $G=8, 16$ 相当，表明在途权重更新未损害生成过程（图 5b）。而 $G=32$ 较慢且不稳定，当 $G=64$ 时训练会发散（图 10）。
基准测试表现：在 MATH500 和 AIME2024 基准上，PipelineRL 训练的模型表现匹配或超过 OpenReasoner Zero【Hu et al., 2025】和 SimpleRL Zero【Zeng et al., 2025】（见表 1）。
同策性分析：虽然 PipelineRL 达到了较高的最大滞后（图 6a），但在有效样本量（ESS）方面，它保持了与 $G=8$ 类似的同策水平（图 6b）。
在途权重更新对同策性的影响（5.1节）：
在途更新的策略定义为：

使用 KL 散度测量不同训练阶段（Checkpoint 0, 100, 190）的策略偏离度。结果（图 7）表明，PipelineRL 的混合策略序列与完全同策序列非常接近，而传统 RL 在滞后增加时 divergence 显著上升。同时，使用陈旧 KV 缓存引入的偏差非常小，验证了保留 KV 缓存的设计。

A5 结论（总结）

PipelineRL 借助在途权重更新突破了传统两阶段 RL 的学习速度上限。
未来工作展望：适用于需要多轮生成与环境交互的智能体（agentic）行为训练；研究长序列早期 token 的高滞后是否对特定任务有负面影响。
局限性：如果 LLM 在相同提示下生成完全相同数量的 token，吞吐量提升有限；在计算资源极少（单卡利用率已足够高）或极多（受限于生成延迟）时，PipelineRL 的优势会减弱。

A6 附录（缩写）

分析估计固定最大滞后下的加速比：
定义时间单位 "flash"，$1 \text{ flash} = \frac{F_{gen}}{M}$，如公式 (6) 所示：

其中 $F_{gen}$ 是单 token 前向传播的 FLOPs，$M$ 是理论最大 FLOPs 吞吐量。
H100 GPU 的利用率 $U(h)$（矩阵乘法测量）见图 8。

传统 RL 的吞吐量公式由公式 (7-1), (7-2), (7-3) 给出：

可以重写为 token/flash 吞吐量形式，如公式 (8-1), (8-2), (8-3) 所示：

PipelineRL 的吞吐量估计见公式 (9-1), (9-2), (9-3)：

最大滞后 $g_{max} = \lceil H I L / B \rceil$。
在 128 个 H100 GPU、批大小 $B=128$ 的配置下，PipelineRL 在特定滞后下可实现高达 1.57x 的吞吐量提升（图 9）。

加速的根本原因（公式 10）在于：由于 GPU 利用率的非线性特性，将生成任务压缩在较少数量的 GPU 上运行以提高其单卡利用率，比在所有 GPU 上低效运行更高效。

A7 补充细节（缩写）

附录图 10 展示了 $G=64$ 时 Conventional RL 训练发散的情况，这证明了过高的 off-policyness 会导致模型无法收敛。

方法细节与背景引用文献汇总

【Ahmadian et al., 2024, Back to basics: Revisiting REINFORCE style optimization for learning from human feedback in LLMs, arXiv】
- 描述及位置：第 2.1 节，用于说明 REINFORCE 变体在 LLM RL 训练中与复杂算法同样有效。
【Roux et al., 2025, Tapered off-policy REINFORCE: Stable and efficient reinforcement learning for LLMs, arXiv】
- 描述及位置：第 2.1 节，用于说明 REINFORCE 及其变体对于 LLM 训练的有效性。
【Munos et al., 2016, Safe and efficient off-policy reinforcement learning, NeurIPS】
- 描述及位置：第 2.1 节，说明通过截断重要性采样权重来减小估计方差的常规做法。
【Espeholt et al., 2018, IMPALA: Scalable distributed deep-RL with importance weighted actor-learner architectures, ICML】
- 描述及位置：第 1 节和第 2.1 节，说明并发异步 RL 架构中截断重要性权重的应用。
【Kong, 1992, A note on importance sampling using standardized weights, University of Chicago】
- 描述及位置：第 2.1 节，引入有效样本量（ESS）来量化重要性采样质量。
【Schlegel et al., 2019, Importance resampling for off-policy prediction, NeurIPS】
- 描述及位置：第 2.1 节，作为使用 ESS 评估偏策 RL 性能的文献支撑。
【Fakoor et al., 2020, P3O: Policy-on policy-off policy optimization, UAI】
- 描述及位置：第 2.1 节，作为在偏策优化中使用 ESS 的文献支撑。
【Kwon et al., 2023b, Efficient Memory Management for Large Language Model Serving with PagedAttention, SOSP】
- 描述及位置：第 2.3 节，介绍基于 PagedAttention 的 KV 缓存管理机制以提高生成效率。
【Noukhovitch et al., 2024, Asynchronous RLHF: Faster and more efficient off-policy RL for language models, arXiv】
- 描述及位置：第 1 节和第 3 节，指出过高的偏策度（大 $G$）会损害 RL 算法的学习效果。
【Hu et al., 2025, OpenReasoner-Zero: An open source approach to scaling up reinforcement learning on the base model, arXiv】
- 描述及位置：第 5 节和 5.1 节，说明实验中使用的数据集来源，以及基准对比的基线模型。
【Zeng et al., 2025, SimpleRL-Zoo: Investigating and taming zero reinforcement learning for open base models in the wild, arXiv】
- 描述及位置：第 5 节，作为基准对比的基线模型之一。