ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

作者/机构:Jie Xiao1∗, Meng Chen2∗, Qingnan Ren1∗, Jingwei Song3∗, Jiaqi Huang1, Yangshen Deng4, Chris Tong1, Wanyi Chen5, Suli Wang6, Ziqian Bi1, Shuo Lu1, Yiqun Duan1, Xu Wang1, Rymon Yu1, Ween Yang1, Lynn Ai1, Eric Yang1, Bill Shi1†

1Gradient, 2Fudan University, 3The University of Hong Kong, 4University of Edinburgh, 5 Soochow University 6Technical University of Darmstadt [email protected]

∗共同贡献, †通讯作者

A1 主要贡献

本文探讨了如何通过将 rollout 生成从集中的 GPU 集群转移到分布式推理资源,从而在保持中央学习器(learner)持续利用的同时,降低强化学习(RL)后训练(post-training)的成本。

为解决此问题,本文提出了 ECHO-2,这是一个基于“集中学习与分布式 rollout”架构原则的分布式 RL 框架。该框架将策略优化(policy optimization)运行在一小组稳定的数据中心 GPU 上,而将 rollout 生成卸载到通过广域网连接的异构 Parallax 推理工作者(worker)池中。通过将 rollout 生成与集中式训练基础设施解耦,ECHO-2 为降低成本创造了新的机会。

ECHO-2 通过两种互补机制实现这一目标:
1. 有界延迟(bounded-staleness)执行模型:学习器可以消费由落后于当前学习器参数的策略生成的 rollout,但延迟程度在用户指定的最大延迟预算 S 之内。这种有界延迟提供了时间上的“松弛”,可以吸收广域网延迟和其他开销,使得 rollout 生成、策略分发和训练能够重叠进行,而不会使学习器停顿。
2. 对等辅助(peer-assisted)流水线广播:在带宽有限的环境中,工作者被组织成一个多层次的树状拓扑。它们会立即转发新收到的策略快照,并尽快开始生成 rollout,从而利用整个集群的聚合带宽来减少广播的尾部延迟。一旦广播以这种方式流水线化,有界延迟 S 就不仅仅是掩盖广播延迟的机制,它变成了一个系统级的控制参数,通过决定系统在多大程度上可以依赖更便宜的工作者来饱和学习器,从而在 rollout 成本和训练稳定性之间进行权衡。

基于此,本文提出了一个具体的资源配置问题,并通过一个简单的配置规则来解决。该规则将可测量的每步训练时间、分发延迟和每个工作者的 rollout 吞吐量与维持持续学习所需的总 rollout 容量联系起来。此外,ECHO-2 还提供了一个与任务无关的系统抽象,将 rollout、学习和数据/奖励处理分解为独立的平面,使得新的 RL 工作负载可以通过提供数据集和奖励逻辑来集成,而无需将算法代码与基础设施决策纠缠在一起。

本文的主要贡献如下:

A2 背景知识/关键Observation/设计原则

2.1 RL 后训练

RL在LLM后训练中的应用。强化学习被广泛用于大型语言模型(LLM)的后训练中,以提高推理、工具使用、安全对齐和偏好优化。大多数实际的流程都迭代执行三个阶段:(i)在策略快照下生成 rollout,(ii)评估生成响应的奖励,以及(iii)使用如 PPO 【【索引编号:4,Proximal policy optimization algorithms,2017】】 或 GRPO 【【索引编号:5,Deepseekmath: Pushing the limits of mathematical reasoning in open language models,2024】】 等目标进行策略优化。虽然学习目标和更新规则是算法层面的,但 RL 后训练的端到端效率和成本在很大程度上受到系统级选择的影响。

2.2 RL 后训练方法

现有RL后训练方法的局限性。当前最先进的 RL 后训练框架主要部署在集中式环境中。最近的系统如 verl 【【索引编号:6,Hybridflow: A flexible and efficient rlhf framework,2025,EuroSys】】 提供了高度优化的集中式流程,通过精心的并行化和协调,在数据中心条件下实现了高吞吐量。为了在集中式部署中减少学习器的空闲时间,一些系统采用了异步 rollout 流式传输。AReaL 【【索引编号:7,Areal: A large-scale asynchronous reinforcement learning system for language reasoning,2025】】 通过流式传输 rollout 来提高利用率,而 AReaL-Hex 【【索引编号:10,Streamrl: Scalable, heterogeneous, and elastic rl for llms with disaggregated stream generation,2025】】、【【索引编号:18】】 在此基础上增加了对异构 GPU 的支持和通信优化。这些系统主要针对受控环境(单个或多个数据中心集群),并未直接解决广域网上的分布式 rollout 执行问题。最近的研究也探索了完全分布式的训练环境,包括训练节点和 rollout 工作者,例如 INTELLECT-2 【【索引编号:19】】 在全球分布式网络中使用完全异步的强化学习。

本文的混合设置与关注点。与上述工作不同,本文的重点是一种混合设置:在一个稳定的训练集群上保留集中式学习,同时将推理分布在地理上分散的资源中。这种混合设置将焦点转移到利用低成本、广域分布的推理工作者来进行 rollout 生成。此外,强化学习框架应支持广泛的环境和任务;为每个实验深入研究底层框架是不可行的。因此,易用性对于 RL 服务至关重要 【【索引编号:20】】,ECHO-2 也提供了用户友好的 API,以方便为定制任务处理数据。

A3 方法细节

3 为实现成本效益的分布式RL而设计

本节介绍了在广域网推理工作者环境下实现高效 RL 训练的设计选择、系统级执行和调度机制。

3.1 概述

分布式环境带来的挑战与同步执行的低效。Rollout 工作者在吞吐量和可用性方面可能存在差异,并且通过广域网进行模型分发会产生不可忽略且可变的延迟。强制执行完全同步的、on-policy 的执行方式,将导致 rollout 工作者或学习器空闲,从而浪费昂贵的训练资源,并抵消使用廉价计算资源的成本优势。


图1 ECHO-2 中的异步 RL 执行,最大有界延迟 S = 3,发布周期 κ = 2。rollout、生成和学习器更新并发进行。Rollout 工作者使用最新的策略快照生成轨迹并存入回放缓冲区。学习器从回放缓冲区消费轨迹,并在每 κ 个训练步骤中向 rollout 工作者广播一个新版本的策略。在训练期间,ECHO-2 生成 rollout 的速率高于其消费速率。

ECHO-2的核心思想:将延迟视为一种可利用的预算。ECHO-2 基于一个简单但未被充分利用的观察:对于现代 LLM RL 目标,少量的策略延迟在实践中通常是可以容忍的,并且可以换取显著提高的系统效率。先前的异步 RL 系统已经表明,有界的策略延迟可以通过隐藏执行的可变性来提高利用率【【索引编号:7,Areal: A large-scale asynchronous reinforcement learning system for language reasoning,2025】】、【【索引编号:8,History rhymes: Accelerating llm reinforcement learning with rhymerl,2025】】、【【索引编号:10,Streamrl: Scalable, heterogeneous, and elastic rl for llms with disaggregated stream generation,2025】】、【【索引编号:21】】,而不会损害训练质量和模型准确性。ECHO-2 将这一思想更进一步:它不将延迟视为需要最小化的副产品,而是将其视为一种一等公民式的预算,使得以低成本使用分布式 rollout 成为可能。

异步执行模型和有界延迟(Bounded Staleness)。我们采用了一种异步执行模型,其中 rollout 生成、策略分发和训练并发进行。这自然导致 rollout 可能是在落后于学习器当前参数的策略快照下生成的。ECHO-2 明确地限制了这种延迟:学习器可以消费策略版本最多比学习器状态旧 S 个训练步骤的 rollout,其中 S 是用户指定的延迟预算。在本文中,我们将每次训练步骤(包含两次模型更新)后的策略版本更新计为一个版本。

从同步约束到资源配置问题。ECHO-2 将 S 视为用户指定的延迟预算,允许学习器消费最多 S 步延迟的 rollout,并且我们只需要每 κ 个训练步骤广播一次以维持这种过时性,如图 1 所示。这种有界延迟创造了时间上的松弛,将学习器与广域 rollout 池解耦。它将一个硬性的同步约束转化为一个资源配置问题:给定一个发布周期 κ 和一个延迟预算 S,需要多少聚合的 rollout 吞吐量才能使学习器保持饱和?第 3.3 节通过一个重叠条件回答了这个问题,该条件根据可测量的训练时间、分布式开销、一个训练步骤所需的 rollout 数量和 rollout 吞吐量($T_{train}$, $T_{bcast}$, $R$, {$µ_i$})得出了一个简单的容量规则,其中 $T_{bcast}$ 包括通信延迟和模型重载开销。

策略分发的重要性。然而,这个重叠条件在很大程度上取决于分发的实际实现方式。在广域网环境中,快照交付时间可能表现出较大的尾部延迟,而一个简单的“推送给所有”(push-to-all)策略会使 $T_{bcast}$ 对学习器的上行带宽和 rollout 工作者的下行带宽非常敏感。因此,ECHO-2 将广播视为一个工程化的原语:工作者在收到快照后立即转发,并在本地安装后立即开始生成 rollout,从而减少学习器可见的广播延迟 $T_{bcast}$(详见第 4.2 节)。

S角色的转变。通过使 $T_{bcast}$ 既可测量又可减少,我们减少了隐藏通信所需的时延量,并将 S 的主要作用从仅仅掩盖网络延迟转向控制成本与质量的权衡。

3.2 执行模型和符号表示

形式化执行模型。我们形式化了分布式 rollout 和集中式训练的执行模型。

3.3 重叠条件和容量需求

重叠执行条件。有界延迟使得异步执行成为可能,但只有当 rollout 生成和策略分发能够与训练重叠时,才能实现学习器的持续利用。我们考虑一个包含 $\kappa$ 个学习器训练步骤的发布周期,在此期间,学习器消费 $\kappa R$ 个 rollout,并发布一次新的策略快照。

公式1:重叠条件。为了避免训练气泡(training bubbles),rollout 生成和分发必须在一个发布周期内完成:

$$\kappa T_{\text {train }} \geq T_{\text {bcast }}+\frac{\kappa R}{\sum_{i \in \mathcal{A}} \mu_{i}},$$

其中 $A \subseteq W$ 表示活跃的 rollout 工作者集合。

公式2:总容量需求。重新整理上式,得到一个总容量需求:

这个规则将一个异构的工作者池简化为一个关于总吞吐量的单一可测量需求。

通过保守的延迟界限关联(S, κ)。附录A推导了该执行模型下最大延迟 $\Delta_{max}$ 的一个保守上界。在最坏情况下,即在新发布的快照分发完成之前,不会生成任何 rollout,最大延迟受限于:

$$\Delta_{\max }^{\text {cons }} \leq \kappa+\left\lceil\frac{T_{\text {bcast }}+\frac{R}{\mu_{\text {pool }}}}{T_{\text {train }}}\right\rceil-1,$$

其中 $\mu_{pool} \triangleq \sum_{i \in A} \mu_i$ 是活动池的总吞吐量。

κ的选择策略。给定一个延迟预算 $S$,系统选择 $\kappa$ 以满足 $\Delta_{max}^{cons} \le S$。在我们的设置中,重叠条件通常意味着:

因此一个简单的充分选择是 $\kappa \le S-1$,除非另有说明,我们默认设置 $\kappa=S-1$。这个选择是保守的(它考虑了步骤离散化和最坏情况下的广播延迟),而实际上观察到的延迟 $\Delta(t)$ 通常更小,这是因为渐进式分发和如第 4.2 节所述的立即开始 rollout。图 1 描述了这一点,对于 $S=3, \kappa=2$ 且 $T_{bcast}/T_{train} < 1$(在我们所有实验设置中都成立),最大的 3 步延迟发生在 $v_3 \rightarrow v_4$ 和 $v_5 \rightarrow v_6$ 的训练步骤中。附录 A 表明,保守界限在训练流程中给出了 $\Delta_{max}^{cons} \le 3$。

3.4 异构资源下的成本感知配置

成本感知配置问题。容量规则指定了需要多少 rollout 吞吐量;成本感知配置则决定激活哪些工作者来廉价地满足该需求。给定一个候选工作者集合 $W$,ECHO-2 选择一个活跃子集 $A$,在满足方程(2)的同时最小化成本:

贪心近似策略。虽然方程(3)类似于一个背包式优化问题,但 ECHO-2 采用了适合在线操作的简单实用近似方法。具体来说,可以按单位吞吐量成本 $\rho_i$ 的递增顺序对工作者进行排序,然后调度器激活累计吞吐量超过 $\mu_{min}(\kappa)$ 的最便宜的子集。这种贪心策略与系统在保持学习器饱和的同时最小化 rollout 成本的目标是一致的。

3.5 调度与资源池管理

闭环控制的资源调度。在分布式环境中,吞吐量和可用性随时间变化。因此,ECHO-2 将资源配置视为一个闭环控制问题:估计有效容量,与所需阈值进行比较,并调整活动集合。

有效池容量的计算。每个工作者定期报告轻量级统计数据。系统维护一个吞吐量估计值 $\mu_i(t)$ 和一个可用性指标 $a_i(t) \in \{0, 1\}$。有效的池容量为:

$$\mu_{\text{pool}}(t) \triangleq \sum_{i} a_{i}(t) \mu_{i}(t).$$

调度逻辑。给定测量的 $T_{train}$ 和 $T_{bcast}$,调度器通过方程(2)计算 $\mu_{min}(\kappa)$,并设定目标为 $\mu_{target} = \gamma\mu_{min}(\kappa)$,其中 $\gamma > 1$ 是为了吸收可变性。如果 $\mu_{pool}(t)$ 持续低于 $\mu_{target}$,ECHO-2 会激活额外的低 $\rho_i$ 工作者;如果容量超出目标足够多,则会释放昂贵的工作者。

4 系统架构与实现

本节描述 ECHO-2 如何通过集中式学习和分布式 rollout 实现分布式且成本效益高的 RL 后训练。其设计遵循三平面分解:Rollout、学习(Learning)和数据(Data)平面,它们通过带版本的、不可变的消息和一个共享的回放缓冲区连接,如图 2 所示。


图2 ECHO-2 的系统架构。该系统采用三平面分解以实现成本效益高的分布式 RL。集中的学习平面使用有界延迟预算采样的数据进行策略优化。数据平面为任务适应提供统一接口,并管理带版本的轨迹存储。分布式的 Rollout 平面通过流水线广播在工作者之间执行异步生成。

我们在算法 1 中概述了 ECHO-2 的工作流程。

4.1 版本化执行和有界延迟

策略发布。学习器每 $\kappa$ 个更新步骤发布一次不可变的策略快照(算法 1,第 15-17 行)。在两次发布之间,学习器可能会执行多次更新,而工作者则继续在它们最近安装的快照下生成 rollout。发布周期 $\kappa$ 的选择是为了遵守延迟预算 $S$(默认 $\kappa \le S - 1$,除非另有说明,我们使用 $\kappa = S - 1$),在 ECHO-2 中 $\kappa$ 应 $\ge 2$。

Rollout生成。每个 rollout 工作者维护一个本地快照版本 $\hat{v}$。对于每个提示 $x$,工作者采样一个响应 $y \sim \pi_{\hat{v}}(\cdot | x)$,计算奖励 $r = R(x, y)$,并将一个轨迹 $(x, y, r, \hat{v})$ 发送到缓冲区(算法 1,第 26-27 行)。奖励计算完全在 Rollout 平面中执行。我们通过拒绝违反数据格式的项来简单而有效地实现数据完整性。

回放缓冲区管理。回放缓冲区存储带版本标签的轨迹并支持选择性采样。在学习器更新索引 $v_t$ 时,只有延迟有界的轨迹是可接受的:$v \ge v_t - S$。更旧的轨迹将被丢弃。这在不施加全局同步的情况下强制执行了有界延迟,将 rollout 视为流 【【索引编号:10,Streamrl: Scalable, heterogeneous, and elastic rl for llms with disaggregated stream generation,2025】】。

有界延迟的作用。有界延迟约束了数据的新鲜度,但并未强加固定的更新计划。只要有足够符合条件的可用数据,学习器就会前进。因此,参数 $S$ 限制了 rollout 生成和训练之间的最大策略延迟,为吸收延迟提供了时间上的松弛,而无需修改底层的 RL 目标。

朴素推送策略的瓶颈。一个简单的“推送给所有”(星型拓扑)策略在训练中心和远程工作者之间有无限带宽时,可以实现最小的通信延迟。否则,它会使学习器的上行链路和尾部接收者成为瓶颈。ECHO-2 组织了一个树状拓扑网络,在带宽受限的情况下减少了分发延迟,使数据传输能够利用 rollout 集群的聚合带宽。

条带化链式设计。一个常见的广域网场景是学习器有有限的上行链路预算 $B_0$,而每个工作者受限于一个较小的单节点带宽 $B_w$。当 $B_0 \approx N \cdot B_w$ 且有 $N$ 个并行传输链路时,ECHO-2 使用一个简单的条带化链式设计:学习器充当带宽“分拣器”,将大小为 $G$ 的快照分割成 $N$ 个不相交的条带 $\{D_j\}_{j=1}^N$(每个大小约 $G/N$),然后以 $B_w$ 的速率将条带 $D_j$ 流式传输到第一跳种子节点 $A_{1,j}$。每个种子节点形成一个链条并充当中继:在接收到数据(分块)后,它立即使用存储转发流式传输方式将相同的条带向下游传输给其唯一的子节点 $A_{2,j}$,这个过程沿着链条继续。在流水线预热后,分发在每个条带上接近线速,且控制开销最小,因为每个工作者只维护一个入站和一个出站流(扇出=1),避免了复杂的多父节点调度。

立即转发和启动。为了尽快获取尽可能多的 rollout,工作者在收到任何新的数据块时会立即转发它们(算法 1,第 22 行)。在完成新快照的安装后,它会立即切换其本地版本 $\hat{v}$ 并开始在新版本下生成 rollout。

4.3 分布式资源池上的成本感知调度

调度器维护与容量计算。调度器维护一个有效吞吐量 $\mu_i(t)$。通过心跳指示器 $a_i(t)$ 跟踪工作者的可用性,从而得到方程(4)中定义的有效池容量 $\mu_{pool}(t)$。

容量需求与调度决策。所需的容量 $\mu_{min}(\kappa)$ 是使用方程(2)中的重叠条件,基于离线配置的 $T_{train}$ 和 $T_{bcast}$ 计算得出。为了减少对短期方差和测量噪声的敏感性,调度器设定了一个略微膨胀的阈值 $\mu_{target} = \gamma \cdot \mu_{min}(S)$,其中 $\gamma = 1.1$ 是 ECHO-2 和 4B/8B 模型实验中定义的安​​全因子。调度决策以较粗的粒度(在持续偏差后)做出,如第 B.2.1 节所述。

4.4 数据平面接口和任务集成

数据平面的作用。数据平面定义了 ECHO-2 的任务语义,同时保留了第 4.1 节中的版本化执行和算法 1 中的端到端循环。具体来说,它规定了如何将一个工作负载映射到存储在回放缓冲区中的不可变的、带版本标签的轨迹记录:$\tau = (x, y, r, v, \Omega)$,其中 $(x, y)$ 是提示-响应对,$r$ 是标量奖励,$v$ 是用于生成 $y$ 的快照版本,$\Omega$ 是可选的任务元数据。缓冲区 $B$ 按版本索引 $\tau$ 并强制执行有界延迟。

任务集成方式。一个任务通过实现一个数据平面适配器来集成,该适配器(i)构造提示 $x$,(ii)定义 rollout 工作者用于产生 $r = R(x, y)$ 的奖励函数 $R$,以及(iii)定义在所选目标(例如,带 KL 正则化的 GRPO)下,$\Omega$ 如何物化为学习器端的训练信号(例如,掩码和归一化优势)。详细的接口和一个端到端示例(扑克沙盒集成)在第 D 节中提供。

A4 实验环境

5.1 实验设置

$$\bar{\mathcal{J}}(\theta) = \frac{1}{\sum_{t} m_{i,t}^{\text{resp}}} \sum_{t=1}^{L_i-1} m_{i,t}^{\text{resp}} \cdot \min\left(\rho_{i,t}(\theta) \hat{A}_{i,t}, \text{clip}(\rho_{i,t}(\theta), 1 - \epsilon_c, 1 + \epsilon_c) \hat{A}_{i,t}\right) - \beta D_{\text{KL}}(\pi_{\theta} \| \pi_{\text{ref}}).$$

直观解释。直观上,截断比率防止了当当前策略与数据收集策略显著偏离时梯度不稳定。这使得学习平面能够稳健地利用来自数据平面的多样化经验,表明支持扑克环境仅需要一个专门的数据平面实例化。

扑克游戏评估。我们使用最终筹码变化(一局/比赛结束时相对于初始筹码的净筹码;越高越好)在德州扑克环境中评估我们的方法。在表 4 中,列对应不同的对手——三个基于规则的对手(Rule-based1–Rule-based3)和一个 LLM 对手(高亮显示)。行对应被评估的玩家/智能体。对于 Qwen3-0.6B,我们报告了基础模型(第一行)及其经过 GRPO 训练的变体(第二行,标记为+GRPO)。对于所有其他骨干模型,我们报告了其直接 LLM 策略(即未经 GRPO 训练)在相同评估协议下的性能。

主要结果:GRPO 提升了 Qwen3-0.6B 对抗 LLM 对手的表现。对于 Qwen3-0.6B,GRPO 将其对抗 LLM 对手的结果从净亏损(-1.677)扭转为净利润(+1.245),表明 GRPO 可以在最具挑战性的环境中显著提高游戏结束时的盈利能力。同时,经过 GRPO 训练后,对三个基于规则的对手的表现变为负数,这表明存在一种权衡,可能通过多对手训练或更多样化的对手采样来解决。

Table 4 德州扑克中不同玩家策略对阵三个基于规则的对手和一个 LLM 对手(高亮)的评估。报告的指标是最终筹码变化(一局/比赛结束时相对于初始筹码的净筹码)。正值表示净利润,负值表示净亏损。只有 Qwen3-0.6B 包含 GRPO 训练的变体(第二行,标记为+GRPO);所有其他行均为未经 GRPO 训练的直接 LLM 策略。