PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation

发表时间: 2025-09 · arXiv:2509.19128 (ServiceNow / Mila)

Alexandre Piché (ServiceNow AI Research), Ehsan Kamalloo (ServiceNow AI Research), Rafael Pardinas (ServiceNow AI Research), Xiaoyin Chen (Mila, Université de Montréal), Dzmitry Bahdanau (ServiceNow AI Research, Mila, McGill University)

A1 主要贡献(总结)

A3 背景知识/关键Observation/设计原则(缩写)

# 传统RL的 Actor-Trainer 逻辑
# Actor 进程
def Actor():
    Sprog = [] # 在途序列
    while True:
        Sfin, Sprog = pop_finished_sequences(Sprog)
        Qtrain.put(Sfin)
        if len(Sprog) < H:
            add_prompts_to_Sprog(H - len(Sprog))
        if Trainer_requests_weight_update:
            μ = receive_weight_update()
        Sprog = generate_next_tokens_with(μ)

# Trainer 进程
def Trainer(π, opt_state):
    batch = []
    while True:
        request_actor_weight_update(π)
        batch = get_B_sequences_from(Qtrain)
        π, opt_state = optimizer_step(π, opt_state, batch)

A2 方法细节(缩写)

A4 实验环境(总结)

A4 实验结果(总结)

A5 结论(总结)

A6 附录(缩写)

A7 补充细节(缩写)


方法细节与背景引用文献汇总

  1. 【Ahmadian et al., 2024, Back to basics: Revisiting REINFORCE style optimization for learning from human feedback in LLMs, arXiv】

    • 描述及位置:第 2.1 节,用于说明 REINFORCE 变体在 LLM RL 训练中与复杂算法同样有效。
  2. 【Roux et al., 2025, Tapered off-policy REINFORCE: Stable and efficient reinforcement learning for LLMs, arXiv】

    • 描述及位置:第 2.1 节,用于说明 REINFORCE 及其变体对于 LLM 训练的有效性。
  3. 【Munos et al., 2016, Safe and efficient off-policy reinforcement learning, NeurIPS】

    • 描述及位置:第 2.1 节,说明通过截断重要性采样权重来减小估计方差的常规做法。
  4. 【Espeholt et al., 2018, IMPALA: Scalable distributed deep-RL with importance weighted actor-learner architectures, ICML】

    • 描述及位置:第 1 节和第 2.1 节,说明并发异步 RL 架构中截断重要性权重的应用。
  5. 【Kong, 1992, A note on importance sampling using standardized weights, University of Chicago】

    • 描述及位置:第 2.1 节,引入有效样本量(ESS)来量化重要性采样质量。
  6. 【Schlegel et al., 2019, Importance resampling for off-policy prediction, NeurIPS】

    • 描述及位置:第 2.1 节,作为使用 ESS 评估偏策 RL 性能的文献支撑。
  7. 【Fakoor et al., 2020, P3O: Policy-on policy-off policy optimization, UAI】

    • 描述及位置:第 2.1 节,作为在偏策优化中使用 ESS 的文献支撑。
  8. 【Kwon et al., 2023b, Efficient Memory Management for Large Language Model Serving with PagedAttention, SOSP】

    • 描述及位置:第 2.3 节,介绍基于 PagedAttention 的 KV 缓存管理机制以提高生成效率。
  9. 【Noukhovitch et al., 2024, Asynchronous RLHF: Faster and more efficient off-policy RL for language models, arXiv】

    • 描述及位置:第 1 节和第 3 节,指出过高的偏策度(大 $G$)会损害 RL 算法的学习效果。
  10. 【Hu et al., 2025, OpenReasoner-Zero: An open source approach to scaling up reinforcement learning on the base model, arXiv】

    • 描述及位置:第 5 节和 5.1 节,说明实验中使用的数据集来源,以及基准对比的基线模型。
  11. 【Zeng et al., 2025, SimpleRL-Zoo: Investigating and taming zero reinforcement learning for open base models in the wild, arXiv】

    • 描述及位置:第 5 节,作为基准对比的基线模型之一。