ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

作者/机构：Jie Xiao1∗, Meng Chen2∗, Qingnan Ren1∗, Jingwei Song3∗, Jiaqi Huang1, Yangshen Deng4, Chris Tong1, Wanyi Chen5, Suli Wang6, Ziqian Bi1, Shuo Lu1, Yiqun Duan1, Xu Wang1, Rymon Yu1, Ween Yang1, Lynn Ai1, Eric Yang1, Bill Shi1†

1Gradient, 2Fudan University, 3The University of Hong Kong, 4University of Edinburgh, 5 Soochow University 6Technical University of Darmstadt [email protected]

∗共同贡献, †通讯作者

A1 主要贡献

本文探讨了如何通过将 rollout 生成从集中的 GPU 集群转移到分布式推理资源，从而在保持中央学习器（learner）持续利用的同时，降低强化学习（RL）后训练（post-training）的成本。

为解决此问题，本文提出了 ECHO-2，这是一个基于“集中学习与分布式 rollout”架构原则的分布式 RL 框架。该框架将策略优化（policy optimization）运行在一小组稳定的数据中心 GPU 上，而将 rollout 生成卸载到通过广域网连接的异构 Parallax 推理工作者（worker）池中。通过将 rollout 生成与集中式训练基础设施解耦，ECHO-2 为降低成本创造了新的机会。

ECHO-2 通过两种互补机制实现这一目标：
1. 有界延迟（bounded-staleness）执行模型：学习器可以消费由落后于当前学习器参数的策略生成的 rollout，但延迟程度在用户指定的最大延迟预算 S 之内。这种有界延迟提供了时间上的“松弛”，可以吸收广域网延迟和其他开销，使得 rollout 生成、策略分发和训练能够重叠进行，而不会使学习器停顿。
2. 对等辅助（peer-assisted）流水线广播：在带宽有限的环境中，工作者被组织成一个多层次的树状拓扑。它们会立即转发新收到的策略快照，并尽快开始生成 rollout，从而利用整个集群的聚合带宽来减少广播的尾部延迟。一旦广播以这种方式流水线化，有界延迟 S 就不仅仅是掩盖广播延迟的机制，它变成了一个系统级的控制参数，通过决定系统在多大程度上可以依赖更便宜的工作者来饱和学习器，从而在 rollout 成本和训练稳定性之间进行权衡。

基于此，本文提出了一个具体的资源配置问题，并通过一个简单的配置规则来解决。该规则将可测量的每步训练时间、分发延迟和每个工作者的 rollout 吞吐量与维持持续学习所需的总 rollout 容量联系起来。此外，ECHO-2 还提供了一个与任务无关的系统抽象，将 rollout、学习和数据/奖励处理分解为独立的平面，使得新的 RL 工作负载可以通过提供数据集和奖励逻辑来集成，而无需将算法代码与基础设施决策纠缠在一起。

本文的主要贡献如下：

一个用于成本效益后训练的分布式推理 RL 架构：提出了一个将集中式学习与分布式 rollout 推理分离的系统架构，使得 RL 后训练能够通过将 rollout 生成从数据中心 GPU 集群卸载到分布式资源来降低成本。
重叠感知执行和对等辅助广播：设计了系统机制，通过一个简单的配置规则，使得分布式 rollout 工作者和集中式训练器之间的 rollout 推理、策略分发和训练能够重叠进行。ECHO-2 通过用户指定的预算 S 来限制策略延迟，并采用对等辅助广播来减少分发尾部延迟。
Rollout、学习和数据的三平面分解：ECHO-2 将 rollout 推理、策略优化和数据处理清晰地解耦为独立的执行平面，从而实现了新 RL 任务的灵活集成。
在 LLM RL 工作负载上的端到端评估：通过广泛的端到端实验，证明了 ECHO-2 在保持学习质量的同时，显著降低了 RL 后训练的成本，使大规模 RL 在现实资源限制下更易于实现。

A2 背景知识/关键Observation/设计原则

2.1 RL 后训练

RL在LLM后训练中的应用。强化学习被广泛用于大型语言模型（LLM）的后训练中，以提高推理、工具使用、安全对齐和偏好优化。大多数实际的流程都迭代执行三个阶段：（i）在策略快照下生成 rollout，（ii）评估生成响应的奖励，以及（iii）使用如 PPO 【【索引编号：4，Proximal policy optimization algorithms，2017】】或 GRPO 【【索引编号：5，Deepseekmath: Pushing the limits of mathematical reasoning in open language models，2024】】等目标进行策略优化。虽然学习目标和更新规则是算法层面的，但 RL 后训练的端到端效率和成本在很大程度上受到系统级选择的影响。

2.2 RL 后训练方法

现有RL后训练方法的局限性。当前最先进的 RL 后训练框架主要部署在集中式环境中。最近的系统如 verl 【【索引编号：6，Hybridflow: A flexible and efficient rlhf framework，2025，EuroSys】】提供了高度优化的集中式流程，通过精心的并行化和协调，在数据中心条件下实现了高吞吐量。为了在集中式部署中减少学习器的空闲时间，一些系统采用了异步 rollout 流式传输。AReaL 【【索引编号：7，Areal: A large-scale asynchronous reinforcement learning system for language reasoning，2025】】通过流式传输 rollout 来提高利用率，而 AReaL-Hex 【【索引编号：10，Streamrl: Scalable, heterogeneous, and elastic rl for llms with disaggregated stream generation，2025】】、【【索引编号：18】】在此基础上增加了对异构 GPU 的支持和通信优化。这些系统主要针对受控环境（单个或多个数据中心集群），并未直接解决广域网上的分布式 rollout 执行问题。最近的研究也探索了完全分布式的训练环境，包括训练节点和 rollout 工作者，例如 INTELLECT-2 【【索引编号：19】】在全球分布式网络中使用完全异步的强化学习。

本文的混合设置与关注点。与上述工作不同，本文的重点是一种混合设置：在一个稳定的训练集群上保留集中式学习，同时将推理分布在地理上分散的资源中。这种混合设置将焦点转移到利用低成本、广域分布的推理工作者来进行 rollout 生成。此外，强化学习框架应支持广泛的环境和任务；为每个实验深入研究底层框架是不可行的。因此，易用性对于 RL 服务至关重要【【索引编号：20】】，ECHO-2 也提供了用户友好的 API，以方便为定制任务处理数据。

A3 方法细节

3 为实现成本效益的分布式RL而设计

本节介绍了在广域网推理工作者环境下实现高效 RL 训练的设计选择、系统级执行和调度机制。

3.1 概述

分布式环境带来的挑战与同步执行的低效。Rollout 工作者在吞吐量和可用性方面可能存在差异，并且通过广域网进行模型分发会产生不可忽略且可变的延迟。强制执行完全同步的、on-policy 的执行方式，将导致 rollout 工作者或学习器空闲，从而浪费昂贵的训练资源，并抵消使用廉价计算资源的成本优势。

图1 ECHO-2 中的异步 RL 执行，最大有界延迟 S = 3，发布周期 κ = 2。rollout、生成和学习器更新并发进行。Rollout 工作者使用最新的策略快照生成轨迹并存入回放缓冲区。学习器从回放缓冲区消费轨迹，并在每 κ 个训练步骤中向 rollout 工作者广播一个新版本的策略。在训练期间，ECHO-2 生成 rollout 的速率高于其消费速率。

ECHO-2的核心思想：将延迟视为一种可利用的预算。ECHO-2 基于一个简单但未被充分利用的观察：对于现代 LLM RL 目标，少量的策略延迟在实践中通常是可以容忍的，并且可以换取显著提高的系统效率。先前的异步 RL 系统已经表明，有界的策略延迟可以通过隐藏执行的可变性来提高利用率【【索引编号：7，Areal: A large-scale asynchronous reinforcement learning system for language reasoning，2025】】、【【索引编号：8，History rhymes: Accelerating llm reinforcement learning with rhymerl，2025】】、【【索引编号：10，Streamrl: Scalable, heterogeneous, and elastic rl for llms with disaggregated stream generation，2025】】、【【索引编号：21】】，而不会损害训练质量和模型准确性。ECHO-2 将这一思想更进一步：它不将延迟视为需要最小化的副产品，而是将其视为一种一等公民式的预算，使得以低成本使用分布式 rollout 成为可能。

异步执行模型和有界延迟（Bounded Staleness）。我们采用了一种异步执行模型，其中 rollout 生成、策略分发和训练并发进行。这自然导致 rollout 可能是在落后于学习器当前参数的策略快照下生成的。ECHO-2 明确地限制了这种延迟：学习器可以消费策略版本最多比学习器状态旧 S 个训练步骤的 rollout，其中 S 是用户指定的延迟预算。在本文中，我们将每次训练步骤（包含两次模型更新）后的策略版本更新计为一个版本。

从同步约束到资源配置问题。ECHO-2 将 S 视为用户指定的延迟预算，允许学习器消费最多 S 步延迟的 rollout，并且我们只需要每 κ 个训练步骤广播一次以维持这种过时性，如图 1 所示。这种有界延迟创造了时间上的松弛，将学习器与广域 rollout 池解耦。它将一个硬性的同步约束转化为一个资源配置问题：给定一个发布周期 κ 和一个延迟预算 S，需要多少聚合的 rollout 吞吐量才能使学习器保持饱和？第 3.3 节通过一个重叠条件回答了这个问题，该条件根据可测量的训练时间、分布式开销、一个训练步骤所需的 rollout 数量和 rollout 吞吐量（$T_{train}$, $T_{bcast}$, $R$, {$µ_i$}）得出了一个简单的容量规则，其中 $T_{bcast}$ 包括通信延迟和模型重载开销。

策略分发的重要性。然而，这个重叠条件在很大程度上取决于分发的实际实现方式。在广域网环境中，快照交付时间可能表现出较大的尾部延迟，而一个简单的“推送给所有”（push-to-all）策略会使 $T_{bcast}$ 对学习器的上行带宽和 rollout 工作者的下行带宽非常敏感。因此，ECHO-2 将广播视为一个工程化的原语：工作者在收到快照后立即转发，并在本地安装后立即开始生成 rollout，从而减少学习器可见的广播延迟 $T_{bcast}$（详见第 4.2 节）。

S角色的转变。通过使 $T_{bcast}$ 既可测量又可减少，我们减少了隐藏通信所需的时延量，并将 S 的主要作用从仅仅掩盖网络延迟转向控制成本与质量的权衡。

3.2 执行模型和符号表示

形式化执行模型。我们形式化了分布式 rollout 和集中式训练的执行模型。

学习器在集中的训练集群上运行并执行策略优化步骤。每次更新消费固定数量的已完成轨迹。我们用 $R$ 表示每次学习器更新所需的 rollout 数量，用 $T_{train}$ 表示每次学习器更新的墙上时钟时间。
学习器定期发布不可变的策略快照，供 rollout 工作者用于生成。我们用 $\kappa$ 表示以学习器更新为单位的发布周期：每 $\kappa$ 次更新发布一次新快照。较大的 $\kappa$ 可以分摊分发开销，但会降低快照的新鲜度。
我们如下定义策略延迟。设训练步骤 $t$ 开始时的学习器状态为版本 $v_t$，并假设在步骤 $t$ 用于构成训练批次的 rollout 是由快照版本 $v_x$ 生成的。步骤 $t$ 的延迟为 $\Delta(t) \triangleq t-x$，运行期间的最大延迟为 $\Delta_{max} \triangleq \max_t \Delta(t)$。用户指定一个延迟预算 $S$，系统配置需满足 $\Delta_{max} \le S$。
我们用 $T_{bcast}$ 表示一个新发布的快照对 rollout 生成可用的学习器可见时间。网络延迟在我们拥有资源池后进行测量。
设 $W$ 表示可用的 rollout 工作者集合。每个工作者 $i \in W$ 的特征是：（i）$\mu_i$，其有效 rollout 吞吐量（rollout/秒），以及（ii）$c_i$，其单位时间的货币成本（例如，美元/小时）。吞吐量 $\mu_i$ 捕捉了已完成并带有奖励的轨迹进入回放缓冲区的端到端交付速率，隐含地包含了推理时间、奖励计算、调度延迟、网络延迟和掉队者效应。
我们将工作者 $i$ 的单位吞吐量成本定义为：$\rho_i \triangleq \frac{c_i}{\mu_i}$，它衡量了提供一个单位 rollout 吞吐量所需的成本。

3.3 重叠条件和容量需求

重叠执行条件。有界延迟使得异步执行成为可能，但只有当 rollout 生成和策略分发能够与训练重叠时，才能实现学习器的持续利用。我们考虑一个包含 $\kappa$ 个学习器训练步骤的发布周期，在此期间，学习器消费 $\kappa R$ 个 rollout，并发布一次新的策略快照。

公式1：重叠条件。为了避免训练气泡（training bubbles），rollout 生成和分发必须在一个发布周期内完成：

$$\kappa T_{\text {train }} \geq T_{\text {bcast }}+\frac{\kappa R}{\sum_{i \in \mathcal{A}} \mu_{i}},$$

其中 $A \subseteq W$ 表示活跃的 rollout 工作者集合。

公式2：总容量需求。重新整理上式，得到一个总容量需求：

这个规则将一个异构的工作者池简化为一个关于总吞吐量的单一可测量需求。

通过保守的延迟界限关联(S, κ)。附录A推导了该执行模型下最大延迟 $\Delta_{max}$ 的一个保守上界。在最坏情况下，即在新发布的快照分发完成之前，不会生成任何 rollout，最大延迟受限于：

$$\Delta_{\max }^{\text {cons }} \leq \kappa+\left\lceil\frac{T_{\text {bcast }}+\frac{R}{\mu_{\text {pool }}}}{T_{\text {train }}}\right\rceil-1,$$

其中 $\mu_{pool} \triangleq \sum_{i \in A} \mu_i$ 是活动池的总吞吐量。

κ的选择策略。给定一个延迟预算 $S$，系统选择 $\kappa$ 以满足 $\Delta_{max}^{cons} \le S$。在我们的设置中，重叠条件通常意味着：

因此一个简单的充分选择是 $\kappa \le S-1$，除非另有说明，我们默认设置 $\kappa=S-1$。这个选择是保守的（它考虑了步骤离散化和最坏情况下的广播延迟），而实际上观察到的延迟 $\Delta(t)$ 通常更小，这是因为渐进式分发和如第 4.2 节所述的立即开始 rollout。图 1 描述了这一点，对于 $S=3, \kappa=2$ 且 $T_{bcast}/T_{train} < 1$（在我们所有实验设置中都成立），最大的 3 步延迟发生在 $v_3 \rightarrow v_4$ 和 $v_5 \rightarrow v_6$ 的训练步骤中。附录 A 表明，保守界限在训练流程中给出了 $\Delta_{max}^{cons} \le 3$。

3.4 异构资源下的成本感知配置

成本感知配置问题。容量规则指定了需要多少 rollout 吞吐量；成本感知配置则决定激活哪些工作者来廉价地满足该需求。给定一个候选工作者集合 $W$，ECHO-2 选择一个活跃子集 $A$，在满足方程（2）的同时最小化成本：

贪心近似策略。虽然方程（3）类似于一个背包式优化问题，但 ECHO-2 采用了适合在线操作的简单实用近似方法。具体来说，可以按单位吞吐量成本 $\rho_i$ 的递增顺序对工作者进行排序，然后调度器激活累计吞吐量超过 $\mu_{min}(\kappa)$ 的最便宜的子集。这种贪心策略与系统在保持学习器饱和的同时最小化 rollout 成本的目标是一致的。

3.5 调度与资源池管理

闭环控制的资源调度。在分布式环境中，吞吐量和可用性随时间变化。因此，ECHO-2 将资源配置视为一个闭环控制问题：估计有效容量，与所需阈值进行比较，并调整活动集合。

有效池容量的计算。每个工作者定期报告轻量级统计数据。系统维护一个吞吐量估计值 $\mu_i(t)$ 和一个可用性指标 $a_i(t) \in \{0, 1\}$。有效的池容量为：

$$\mu_{\text{pool}}(t) \triangleq \sum_{i} a_{i}(t) \mu_{i}(t).$$

调度逻辑。给定测量的 $T_{train}$ 和 $T_{bcast}$，调度器通过方程（2）计算 $\mu_{min}(\kappa)$，并设定目标为 $\mu_{target} = \gamma\mu_{min}(\kappa)$，其中 $\gamma > 1$ 是为了吸收可变性。如果 $\mu_{pool}(t)$ 持续低于 $\mu_{target}$，ECHO-2 会激活额外的低 $\rho_i$ 工作者；如果容量超出目标足够多，则会释放昂贵的工作者。

4 系统架构与实现

本节描述 ECHO-2 如何通过集中式学习和分布式 rollout 实现分布式且成本效益高的 RL 后训练。其设计遵循三平面分解：Rollout、学习（Learning）和数据（Data）平面，它们通过带版本的、不可变的消息和一个共享的回放缓冲区连接，如图 2 所示。

Rollout 平面：一个分布式的工作者集群，它们在本地安装的快照版本 $\hat{v}$ 下重复生成带奖励的轨迹，并将带版本标签的结果推送到缓冲区。该平面负责实现有效吞吐量 $\mu_i$ 并立即转发数据。
学习平面：一个集中的学习器，它消费轨迹并执行包含两次模型更新的训练步骤。它在采样数据时强制执行有界延迟（S），并每隔 $\kappa$ 个学习器更新发布一次快照。

图2 ECHO-2 的系统架构。该系统采用三平面分解以实现成本效益高的分布式 RL。集中的学习平面使用有界延迟预算采样的数据进行策略优化。数据平面为任务适应提供统一接口，并管理带版本的轨迹存储。分布式的 Rollout 平面通过流水线广播在工作者之间执行异步生成。

数据平面：用于提示、轨迹模式、奖励和损失函数设计的任务适配器。该平面提供了一个与任务无关的接口，因此新的工作负载可以通过更换数据集和奖励逻辑来集成，而无需涉及调度或基础设施。

我们在算法 1 中概述了 ECHO-2 的工作流程。

4.1 版本化执行和有界延迟

策略发布。学习器每 $\kappa$ 个更新步骤发布一次不可变的策略快照（算法 1，第 15-17 行）。在两次发布之间，学习器可能会执行多次更新，而工作者则继续在它们最近安装的快照下生成 rollout。发布周期 $\kappa$ 的选择是为了遵守延迟预算 $S$（默认 $\kappa \le S - 1$，除非另有说明，我们使用 $\kappa = S - 1$），在 ECHO-2 中 $\kappa$ 应 $\ge 2$。

Rollout生成。每个 rollout 工作者维护一个本地快照版本 $\hat{v}$。对于每个提示 $x$，工作者采样一个响应 $y \sim \pi_{\hat{v}}(\cdot | x)$，计算奖励 $r = R(x, y)$，并将一个轨迹 $(x, y, r, \hat{v})$ 发送到缓冲区（算法 1，第 26-27 行）。奖励计算完全在 Rollout 平面中执行。我们通过拒绝违反数据格式的项来简单而有效地实现数据完整性。

回放缓冲区管理。回放缓冲区存储带版本标签的轨迹并支持选择性采样。在学习器更新索引 $v_t$ 时，只有延迟有界的轨迹是可接受的：$v \ge v_t - S$。更旧的轨迹将被丢弃。这在不施加全局同步的情况下强制执行了有界延迟，将 rollout 视为流【【索引编号：10，Streamrl: Scalable, heterogeneous, and elastic rl for llms with disaggregated stream generation，2025】】。

有界延迟的作用。有界延迟约束了数据的新鲜度，但并未强加固定的更新计划。只要有足够符合条件的可用数据，学习器就会前进。因此，参数 $S$ 限制了 rollout 生成和训练之间的最大策略延迟，为吸收延迟提供了时间上的松弛，而无需修改底层的 RL 目标。

朴素推送策略的瓶颈。一个简单的“推送给所有”（星型拓扑）策略在训练中心和远程工作者之间有无限带宽时，可以实现最小的通信延迟。否则，它会使学习器的上行链路和尾部接收者成为瓶颈。ECHO-2 组织了一个树状拓扑网络，在带宽受限的情况下减少了分发延迟，使数据传输能够利用 rollout 集群的聚合带宽。

条带化链式设计。一个常见的广域网场景是学习器有有限的上行链路预算 $B_0$，而每个工作者受限于一个较小的单节点带宽 $B_w$。当 $B_0 \approx N \cdot B_w$ 且有 $N$ 个并行传输链路时，ECHO-2 使用一个简单的条带化链式设计：学习器充当带宽“分拣器”，将大小为 $G$ 的快照分割成 $N$ 个不相交的条带 $\{D_j\}_{j=1}^N$（每个大小约 $G/N$），然后以 $B_w$ 的速率将条带 $D_j$ 流式传输到第一跳种子节点 $A_{1,j}$。每个种子节点形成一个链条并充当中继：在接收到数据（分块）后，它立即使用存储转发流式传输方式将相同的条带向下游传输给其唯一的子节点 $A_{2,j}$，这个过程沿着链条继续。在流水线预热后，分发在每个条带上接近线速，且控制开销最小，因为每个工作者只维护一个入站和一个出站流（扇出=1），避免了复杂的多父节点调度。

立即转发和启动。为了尽快获取尽可能多的 rollout，工作者在收到任何新的数据块时会立即转发它们（算法 1，第 22 行）。在完成新快照的安装后，它会立即切换其本地版本 $\hat{v}$ 并开始在新版本下生成 rollout。

4.3 分布式资源池上的成本感知调度

调度器维护与容量计算。调度器维护一个有效吞吐量 $\mu_i(t)$。通过心跳指示器 $a_i(t)$ 跟踪工作者的可用性，从而得到方程（4）中定义的有效池容量 $\mu_{pool}(t)$。

容量需求与调度决策。所需的容量 $\mu_{min}(\kappa)$ 是使用方程（2）中的重叠条件，基于离线配置的 $T_{train}$ 和 $T_{bcast}$ 计算得出。为了减少对短期方差和测量噪声的敏感性，调度器设定了一个略微膨胀的阈值 $\mu_{target} = \gamma \cdot \mu_{min}(S)$，其中 $\gamma = 1.1$ 是 ECHO-2 和 4B/8B 模型实验中定义的安全因子。调度决策以较粗的粒度（在持续偏差后）做出，如第 B.2.1 节所述。

4.4 数据平面接口和任务集成

数据平面的作用。数据平面定义了 ECHO-2 的任务语义，同时保留了第 4.1 节中的版本化执行和算法 1 中的端到端循环。具体来说，它规定了如何将一个工作负载映射到存储在回放缓冲区中的不可变的、带版本标签的轨迹记录：$\tau = (x, y, r, v, \Omega)$，其中 $(x, y)$ 是提示-响应对，$r$ 是标量奖励，$v$ 是用于生成 $y$ 的快照版本，$\Omega$ 是可选的任务元数据。缓冲区 $B$ 按版本索引 $\tau$ 并强制执行有界延迟。

任务集成方式。一个任务通过实现一个数据平面适配器来集成，该适配器（i）构造提示 $x$，（ii）定义 rollout 工作者用于产生 $r = R(x, y)$ 的奖励函数 $R$，以及（iii）定义在所选目标（例如，带 KL 正则化的 GRPO）下，$\Omega$ 如何物化为学习器端的训练信号（例如，掩码和归一化优势）。详细的接口和一个端到端示例（扑克沙盒集成）在第 D 节中提供。

A4 实验环境

5.1 实验设置

模型：我们对两个基础模型进行后训练：Qwen3-4B 和 Qwen3-8B 【【索引编号：22】】。除非另有说明，我们在所有系统中都使用相同的 GRPO 超参数：全局批量大小 = 128，最大生成长度 8192，温度 1.0，top-p 0.95，rollout n: 16。我们禁用了思维链提示，并评估 avg@64。
任务和奖励：我们的主要任务是 AIME24 【【索引编号：23】】，其最终答案可验证。每个 rollout 都会收到一个由数据集对应的匹配答案检查器计算出的奖励 $r = R(x, y)$。除非另有说明，我们报告 AIME 准确率作为主要的 RL 质量指标。我们在 C.2 节中还报告了更广泛的数学基准测试套件的结果。
系统部署：
1. 学习平面：学习器在 ECHO-2 中运行于 4x A100 80GB，在集中式基线中运行于 8x A100。我们测量稳态下的单次更新时间 $T_{train}$，取 5 次离线训练步骤的中位数。
2. Rollout 平面：为简化实验验证，rollout 在一个由 RTX 5090 工作者组成的分布式池中运行，由 Parallax 【【索引编号：14，Parallax: Efficient llm inference service over decentralized environment，2025】】提供服务，这是一个硬件无关的推理服务。
网络环境：为了研究带宽限制的影响，我们将学习器的出站上行链路预算限制在 $B_0 \in \{\text{无限制, 300-1000Mbps}\}$，并将每个工作者的下载速率限制为 $B_w=100\text{Mbps}$。在实验中，我们将 $T_{bcast}$ 定义为从发布开始直到目标比例 $1/\gamma$ 的活动工作者已安装快照的经过时间。这使得第 3 节中的抽象与观察到的分发行为保持一致，并捕捉了尾部接收者的实际影响。
基线：
1. Centralized-Sync (verl 【【索引编号：6，Hybridflow: A flexible and efficient rlhf framework，2025，EuroSys】】)：一个同步流水线，其中 rollout 与学习器位于同一数据中心 GPU 上（8 个 GPU 用于训练和推理）。
2. Centralized-Async (verl-async 【【索引编号：6，Hybridflow: A flexible and efficient rlhf framework，2025，EuroSys】】)：一个数据中心内的流式/异步基线（AReaL-style 【【索引编号：7，Areal: A large-scale asynchronous reinforcement learning system for language reasoning，2025】】），它重叠了 rollout 生成和学习，并假设有高带宽、低延迟的连接（4 个 GPU 用于训练，其他用于推理）。
ECHO-2 消融实验：
1. ECHO-2-NoP2P：禁用对等辅助广播，使用直接从学习器到工作者的分发方式。
2. ECHO-2-NoCost：禁用成本感知配置，使用随机的工作者激活方式。
成本和利用率指标：我们根据表 1 中公开的租赁价格计算美元成本，使用谷歌云代表数据中心硬件，http://vast.ai 模拟分布式消费级资源。设 $p_{A100}$ 和 $p_{5090}$ 表示小时价格。美元成本为：$Cost_{\$} = \sum_{g \in {A100,5090}} p_g \cdot (\text{GPU-hours}g)$。
我们测量学习器气泡率（空闲比例）为：$\frac{T}}{T_{idle} + T_{train,active}}$，其中 $T_{idle}$ 是由于可接受的 rollout 不足而等待的时间。 ## A5 实验结果 ### 5.2 成本-质量效率 **实验内容**：我们首先评估在网络设置为 $B_0=100\text{Mbps}, B_w=1\text{Gbps}$ 的情况下，ECHO-2 是否能提高 RL 后训练的成本-质量效率。我们比较了不同基线的训练曲线。verl-sync/async 和 ECHO-2 (S=3/4) 的每步训练时间 ($T_{train}$) 分别为 1508.2s, 1582.3s, 1631.2s, 和 1649.3s。 **实验结果**：图 3a 展示了 Qwen3-8B 模型的实验结果。ECHO-2 始终优于集中式流水线。在达到相同的 AIME 准确率时，ECHO-2 将累计成本降低了 33.3-36.3%；而在相同的成本下，ECHO-2 最终达到的准确率与基线相差在±0.03个点以内。Qwen3-4B 模型（见 C.1 节）也呈现出相同的趋势。 **结论分析**：这种改进源于 rollout 生成可以被卸载到更便宜的分布式 GPU 上执行，同时只要满足方程（1）中的重叠条件，就不会导致集中式学习器停顿。图3 ECHO-2 在 Qwen3-8B 上的实验结果。(a) 在广域网设置下 AIME24 任务上的成本-质量效率。虚线表示基于稳态训练时间和公开 GPU 租赁价格计算的成本（右侧 y 轴）。(b) 延迟 S 对 RL 稳定性的影响。当 S ≤ 6 时性能保持稳健，而过大的延迟 (S = 11) 会导致发散。(c) 学习器气泡率与 rollout 工作者数量的函数关系。垂直虚线表示理论上的最少工作者数量。 ### 5.3 有界延迟下的 RL 质量 **实验内容**：我们通过调整延迟预算 S 来量化它如何在训练稳定性/质量与系统效率和使用更便宜工作者之间进行权衡。我们通过扫描 $S \in {3, 4, 6, 11}$ 来评估有界延迟是否影响 RL 质量，同时保持其他所有设置不变。 **实验结果**：图 3b 显示，适度的延迟不会降低最终质量。对于 $S \le 6$，ECHO-2 实现的奖励分数与同步基线的波动范围在约5%以内，收敛趋势相似，同时降低了成本。 **结论分析**：过大的延迟（S=11）可能导致标准 GRPO 的不稳定性，这与直觉相符，即陈旧的数据会逐渐偏离当前的策略分布。 ### 5.4 验证重叠条件 **实验内容**：方程（2）预测了一种阈值行为：随着 rollout 容量的增加，一旦系统进入可行的重叠区域，学习器的气泡应该会迅速消失。我们通过改变有效池的大小来验证这一预测。 **实验结果**：图 3c 表明，随着池的增大，气泡率在预测的阈值附近持续下降至零。 **结论分析**：这证实了重叠模型提供了一个实用的资源配置规则。更大的 S 将转变点向左移动，表明延迟可以作为一个明确的控制旋钮，用策略的新鲜度来换取更少的 rollout 容量。 ### 5.5 消融研究 #### 5.5.1 带宽约束下的广播 **实验内容**：我们评估了在不同广播策略下，策略分发延迟随 rollout 集群规模扩大的变化。我们测量学习器可见的广播时间 $T_{bcast}$，即从快照发布到目标比例 q (我们使用 $q = 1/\gamma = 1/1.1 = 0.9$) 的活动工作者完全安装快照并能开始生成新版本 rollout 的时间。我们比较了三种分发设置：（i）Star-Unlimited，理想化的无上行带宽限制的“推送给所有”广播；（ii）Star-Limited，学习器上行带宽受限（$B_0 = 300-800$ Mbps）的“推送给所有”；以及（iii）Tree-Pipelined，使用分块存储转发的对等中继。 **实验结果**：图 4 显示，随着工作者数量 N 的增长，Star-Limited 的广播时间迅速增加，因为学习器的固定上行带宽成为瓶颈。相比之下，Tree-Pipeline 通过流水线化块传输和利用 rollout 集群的聚合带宽，使得 $T_{bcast}$ 即使在相同带宽限制下也接近 Star-Unlimited。 **结论分析**：对等辅助的流水线广播能有效克服学习器上行带宽瓶颈，保持分发延迟在较低水平，从而支持系统的高效扩展。图4 策略广播延迟 $T_{bcast}$ 与 rollout 集群规模的关系。比较了三种分发策略在不同节点数量 N 下的表现。Star-Limited（学习器上行带宽 $B_0 \in [300, 800]$Mbps）因学习器成为带宽瓶颈而导致延迟线性增长。Tree-Pipelined 分发通过利用分块对等转发，保持了近乎恒定的广播时间，能够高效地随集群规模扩展，其表现接近理想化的 Star-Unlimited 基线。 #### 5.5.2 广播和成本感知配置 **实验内容**：我们使用 ECHO-2-NoCost 来分离成本感知激活的好处，该变体统一采样有能力的工作者，但仍以完全重叠为目标。为确保消融实验的信息量，我们在一个工作者成本异构的混合价格 rollout 池中进行评估。我们报告了（i）每步成本，（ii）分发延迟，以及（iii）两次训练步骤之间的等待时间。 **实验结果**：表 2 显示，移除对等辅助广播会增加通信延迟和气泡时间，需要额外的机器和成本来减少气泡率。禁用成本感知配置，由于在异构环境中激活了次优的工作者，增加了达到相同目标质量的成本。 **结论分析**：这些消融实验共同表明，ECHO-2 的机制对于实现图 3a 所示的端到端成本效益性能是必要的。 Table 1 成本和定价来源。USD/hour 表示每块 GPU 的小时租赁价格，收集于 2026 年 1 月 28 日。 Table 2 消融研究总结。我们评估了移除 ECHO-2 中的对等辅助（P2P）广播和成本感知配置（Cost）的影响。#Mach、Tbcast 和 Wait 分别表示 rollout 集群大小、分发延迟和学习器空闲时间。 ## A6 结论我们介绍了 ECHO-2，一个用于 LLM 后训练的 RL 框架，它将集中式学习与分布式 rollout 分离。通过将有界延迟作为一个控制旋钮，建立基于重叠的容量模型，并按需激活工作者，ECHO-2 实现了广域网执行下的成本感知配置。借助对等辅助的流水线广播，ECHO-2 减少了分发开销。对 4B 和 8B 模型的 GRPO 后训练实验表明，ECHO-2 在保持与基线相当的 RL 质量的同时，显著降低了训练成本。 ## A7 补充细节 ### 6 局限性与未来工作 **对RL鲁棒性的依赖**。ECHO-2 依赖于现代 LLM RL 目标对有界策略延迟的经验性鲁棒性。虽然在我们的实验中，适度的延迟保留了 GRPO 后训练的质量，但我们没有提供正式的保证，安全范围可能取决于任务和奖励信号。开发理论性的延迟控制仍是未来的工作。 **广播优化**。我们的对等辅助广播缓解了上行链路瓶颈，而我们未来的工作将包括增量或量化更新以及缓存感知的部署。 **系统扩展**。ECHO-2 专注于集中式学习与分布式 rollout。将设计扩展到多个或地理上复制的学习器是有前景的，但这引入了同步和策略一致性方面的新挑战，并且在更广泛的模型尺寸上进行进一步验证仍是未来的工作。 ## A8 附录 ### A 重叠下的最坏情况延迟界限本附录推导了 ECHO-2 中最大策略延迟 $\Delta_{max}$ 的一个保守上界，并说明了重叠条件如何收紧这个界限。 #### A.1 执行语义和保守假设 **最坏情况场景建模**。我们考虑以下执行语义，这有意地模拟了最坏情况： * 策略快照在每个 $\kappa$ 个学习器更新步骤结束时发布。 * 训练批次在每个步骤开始时形成。 * 在最保守的情况下，rollout 工作者在分发完成（耗时 $T_{bcast}$）之前，不会从新发布的快照生成任何轨迹。 * 分发完成后，新策略的 rollout 以聚合速率 $\mu_{pool}$ 生成。该模型有意忽略了渐进式分发和早期 rollout 启动，因此为实践中可能发生的延迟提供了上界。 #### A.2 基线最坏情况延迟界限 **新策略rollout数量的计算**。设 $n$ 为自快照发布以来经过的学习器步骤数。到时间 $nT_{train}$ 时，从新策略生成的 rollout 数量最多为 **新策略rollout可用的最早步骤**。至少有 $R$ 个新策略 rollout 可用的最早步骤 $n$ 满足
$$G(n) \geq R \quad \Rightarrow \quad n \geq\left\lceil\frac{T_{\text {bcast }}+\frac{R}{\mu_{\text {pool }}}}{T_{\text {train }}}\right\rceil .$$
**最大延迟的保守模型**。在发布时，学习器版本相对于前一个发布的快照前进了 $\kappa$。由于在发布后的前 $n-1$ 个步骤内无法消费任何新策略的 rollout，因此在这个保守模型下的最大延迟是 #### A.3 使用重叠条件收紧界限 **重叠条件的引入**。方程（7）中的基线界限取决于 rollout 吞吐量 $\mu_{pool}$。我们现在展示在重叠条件下，这种依赖关系可以被收紧。 **重叠条件回顾**。回顾重叠条件： **整理重叠条件**。重新整理得到： **代入并化简**。将方程（9）代入方程（7）的分子中得到 **进一步推导**。两边同除以 $T_{train}$ 并取上整， **收紧后的界限**。代回方程（7）得到一个收紧的界限：
$$\Delta_{\max }^{\text {cons }} \leq \kappa+\left\lceil\left(1-\frac{1}{\kappa}\right) \frac{T_{\text {bcast }}}{T_{\text {train }}}\right\rceil .$$
#### A.4 对 κ = 2 的推论 **常见情况分析**。对于常见的 $\kappa=2$ 的情况，重叠条件意味着 $T_{bcast} < 2T_{train}$，因此
$$0 < \frac{1}{2} \frac{T_{\text{bcast}}}{T_{\text{train}}} < 1.$$
**最终界限**。因此，这个界限对应于一个最坏情况的执行，其中新策略的 rollout 只有在分发完成后才可用。实际上，rollout 工作者在分发过程中收到更新后就立即开始生成轨迹，使得观察到的延迟通常小于这个界限。 **推论：单参数配置**。考虑 ECHO-2 使用的配置，其中发布周期设置为 $\kappa = S - 1$。代入保守界限得到
$$\Delta_{\max }^{\text {cons }}=S-1+\left\lceil\frac{T_{\text {bcast }}+\frac{R}{\mu_{\text {pool }}}}{T_{\text {train }}}\right\rceil-1.$$
**在实验设置下的简化**。如果系统满足重叠条件且 $T_{bcast}/T_{train} < 1$（在我们所有实验设置中都成立），那么
$$\left\lceil\frac{T_{\text {bcast }}+\frac{R}{\mu_{\text {pool }}}}{T_{\text {train }}}\right\rceil \leq 2,$$
**最终结论**。因此这个结果证明了在 ECHO-2 中将 S 作为唯一的延迟控制参数是合理的。 ### B ECHO-2 执行 #### B.1 整体流程 **算法伪代码**。我们在算法 1 中展示了 ECHO-2 的端到端执行模型，由于训练过程对数据平面是透明的，因此只包括了 Rollout 平面和学习平面。 #### B.2 补充系统设计 ##### B.2.1 低频调整 **调度器调整逻辑**。调度器维护一个活动工作者集合 A 并监控其总吞吐量 $\sum_{i \in A} a_i \mu_i$。如果容量持续低于 $\mu_{target}$，则会激活单位吞吐量成本 $\rho$ 较低的额外工作者；如果容量超出目标足够多，则会逐渐释放昂贵的工作者。这种设计确保了在可行的情况下学习器保持饱和，同时避免了频繁的重新配置和不必要的 rollout 成本。 ### C 补充实验 #### C.1 Qwen3-4B 的结果 **Qwen3-4B的成本-质量对比**。本节我们展示了 Qwen3-4B 的成本-质量对比，其表现与图 3c 中的 Qwen3-8B 类似。此外，如图 6 所示，我们还对 Qwen3-4B 在标准 GRPO 下的延迟进行了实证实验。图5 Qwen3-4B 在 AIME 上的成本-质量对比。图6 ECHO-2 中有界延迟 S 对 Qwen3-4B RL 质量的影响。 #### C.2 广泛的基准测试 **多数学基准测试结果**。表 3 报告了在 5 个数学推理基准上进行 RL 后训练后的奖励分数：AIME24 【【索引编号：23】】、OmniMath 【【索引编号：24】】、JEE 【【索引编号：25】】、HardMath 【【索引编号：26】】和 IMO-answer-400 【【索引编号：27】】。我们比较了 ECHO-2 ($S=3$) 和 verl 在相同奖励模型和训练配置下，使用 Qwen3-4B 和 Qwen3-8B 作为基础模型的结果。在所有数据集和两种模型规模下，ECHO-2 都保持了与 verl 相当的奖励性能，这表明带有界延迟的分布式 rollout 不会降低 RL 优化质量，并提供了一个成本效益的机会，而 ECHO-2 实现了这一点。 Table 3 在数学推理基准上进行 RL 后训练后的奖励分数。AIME24 报告 avg@64，JEE 报告 avg@8，OmniMath / HardMath /IMO-A 报告 avg@1（即 Pass@1）。IMO-A 表示 IMO-answer-400。所有结果均在相同的训练配置下报告。 ### D 超越数学：通过沙盒集成进行扑克游戏对齐 **数据平面通用性展示**。为了展示 Echo-2 解耦数据平面的通用性，我们将评估从静态的数学推理扩展到一个动态的、交互式的环境：无限注德州扑克。这个案例研究说明了 Echo-2 如何适应非标准模态（游戏日志和回合回报），而无需修改底层的学习平面或 Rollout 平面。具体来说，我们只实例化了一个特定于任务的数据平面适配器，它（i）与一个扑克沙盒接口，（ii）将原始日志标准化为规范的 rollout 模式，以及（iii）物化 GRPO 所需的额外元数据 $\Omega$（例如，令牌掩码和归一化优势），从而产生由共享回放缓冲区和学习器消费的规范记录 $\tau = (x, y, r, v, \Omega)$。图7 Echo-2 扑克游戏对齐系统概览。协调器 (Parallax) 与沙盒 (E) 交互以生成轨迹日志 (Li)。日志到 Rollout 转换器 (C) 将这些日志处理成训练 Rollout (D)，然后训练器 (T) 使用这些 Rollout 来更新策略参数 (θ)，从而形成迭代训练循环。 #### D.1 系统概览：一个数据平面实例化 **数据平面适配器实现**。我们实现了一个专门的数据平面适配器，它桥接了原始的扑克沙盒和 Echo-2 的训练接口。如图 7 所示，该流程包括三个阶段：沙盒交互、日志标准化和奖励增强的 Rollout 生成。该适配器输出一个统一的 rollout 元组，可以被通用的 Rollout 平面和学习平面直接消费。 **策略定义**。设策略为一个自回归语言模型 $\pi_{\theta}(y | x)$，其中 $x$ 表示序列化的游戏上下文，$y$ 表示智能体的决策（下注动作文本）。我们用 $\pi_{ref}$ 表示一个参考策略（用于 KL 正则化）。 **通过沙盒适配器实现单行任务切换**。解耦数据平面的一个关键好处是，切换到一个新的交互式任务只需要更换沙盒适配器的配置，而 Rollout/学习平面（以及回放模式 $\tau = (x, y, r, v, \Omega)$）保持不变。 **统一编排 API (扑克 ↔ MOBA)** #### D.2 阶段 1：环境交互 (沙盒 → 原始日志) **原始交互日志**。我们部署一个模拟扑克牌桌的沙盒环境 E。对于每个回合 $i$，环境记录一个原始交互日志 $L_i$：其中： * $s_{i,t}$ 是对私有手牌、公共牌、底池大小和派生赔率的文本描述（例如，“手牌：[Ah, Kd]，公共牌：[Qs, Th, 2c]，底池：100”）。 * $a_{i,t}$ 是一个渲染为文本的结构化动作（例如，“动作：加注 50”）。 * $r_{i,t}$ 是即时筹码变化，即相对于上一轮筹码堆栈的变化。 **数据来源**。与数学任务中 rollout 由正在训练的模型生成不同，扑克日志最初可能来自基于规则的基线或先前的模型迭代，这展示了 Echo-2 消费离策略数据的能力（如果连接到实时的 rollout 工作者，则为严格的在策略数据）。在 ECHO-2 中，标量奖励 $r$ 在 Rollout 平面（与环境交互同地）产生，而数据平面定义了 $R$ 和用于推导 $\Omega$ 以供学习的后处理规则。 #### D.3 阶段 2：标准化与转换 (原始日志 → 规范消息) **日志到消息的转换**。数据平面的核心职责是将异构的日志 $L_i$ 转换为与通用学习平面兼容的统一 rollout 格式。适配器 C 将原始日志转换为聊天格式的消息序列 $M_i$，通过将复杂的游戏状态扁平化为标准的提示-响应模板：
$$\mathcal{M}_{i}=\left[m_{i, 0}^{\mathrm{sys}}, m_{i, 0}^{\mathrm{usr}}, m_{i, 1}^{\mathrm{asst}}, m_{i, 1}^{\mathrm{usr}}, \ldots, m_{i, T_{i}}^{\mathrm{asst}}\right],$$
其中 $m_{i,0}^{sys} = \text{SystemPrompt}$ 编码了全局扑克规则 $P_{rules}$，每个回合由一个用户状态消息和一个助手动作消息表示： **奖励记录**。可选地，为了记账，我们可以将奖励作为用户消息插入“奖励：$r_{i,t}$”；然而，训练信号最终是在数据平面内从数值奖励计算得出的。 **分词**。然后我们使用分词器的聊天模板将 $M_i$ 线性化并获得令牌 ID：
$$\mathbf{x}_i = (x_{i,1}, \dots, x_{i,L_i}) = \text{Tokenize}(\mathcal{M}_i),$$
以及一个注意力掩码 $a_i \in {0, 1}^{L_i}$。Echo-2 使用左填充来批处理可变长度的回合。 **实现示例**。以下实现展示了如何将原始环境输出迭代转换为用户-助手消息结构： #### D.4 阶段 3：回合感知掩码和奖励增强的 Rollout **稀疏监督处理**。扑克监督是稀疏且回合制的；因此，数据平面还额外计算（i）将学习限制在助手令牌上的回合感知掩码，以及（ii）从最终筹码结果派生出的优势。 ##### D.4.1 回合感知掩码 **回合指示器计算**。我们使用一个特殊的回合开始令牌 ID $\tau_{start}$（例如，Qwen 风格模板中的 <|im_start|>）来构建回合指示器。定义：
$$u_{i,t} = \mathbb{I}[x_{i,t} = \tau_{\text{start}}], \quad c_{i,t} = \sum_{k=1}^{t} u_{i,k},$$
其中 $c_{i,t}$ 是令牌 $t$ 的聊天回合索引。助手响应掩码是：
$$m_{i,t}^{\text{resp}} = \mathbb{I}[c_{i,t} > 1] \cdot \mathbb{I}[c_{i,t} \bmod 2 = 1],$$
选择系统提示之后属于助手回合的令牌。我们将损失掩码设置为 $m_{i,t}^{loss} = m_{i,t}^{resp}$，因此学习被限制在智能体的动作令牌上。在下一令牌预测下，掩码与移位的目标 $y_{i,t} = x_{i,t+1}$ 对齐。 **实现示例**。下面的实现对应于 $m_{i,t}^{resp}$ 的计算以及将奖励与回合边界对齐的逻辑： **轨迹级回报**。虽然扑克是高方差的，但我们的主要评估指标是最终的筹码变化。对于回合 $i$，轨迹级回报是：
$$R_i = \sum_{t=1}^{T_i} r_{i,t},$$
等于筹码的净利润/亏损。我们使用轨迹级回报作为记录中存储的标量奖励，即 $r_i := R_i$。 **优势归一化**。为了减少方差并稳定策略更新，数据平面应用分组归一化。对于一组回合 $G$（例如，共享相似的初始私有手牌或其他粗略状态描述符），我们计算归一化优势： **优势广播**。然后我们将 $\hat{Ai$ 广播到响应令牌：
$$\hat{A}_{i,t} = \hat{A}_i \cdot m_{i,t}^{\text{resp}},$$
这样只有助手令牌接收到非零优势。 **实现示例**。这种归一化逻辑支持多种分组策略（例如，按初始状态或批次），以计算 GRPO 目标中使用的标准化回报： **最终记录格式**。适配器发出规范的带版本标签的记录 $\tau_i = (x_i, y_i, r_i, v_i, \Omega_i)$，其中 $r_i = \sum}^{T_i} r_{i,t}$ 是回合回报，$\Omega_i$ 包括任务元数据，如 $(m_{i}^{loss}, m_{i}^{resp})$ 和用于计算 $\hat{Ai$ 的分组标签。从回放缓冲区采样 $\tau_i$ 后，学习器物化训练张量 $(x_i, a_i, m}^{loss}, m_{i}^{resp}, \hat{Ai)$。 **重要性采样**。为了解释采样策略 $\pi(\theta)$ 表示带 KL 正则化的 GRPO 风格的裁剪代理目标：}$ 和当前学习器 $\pi_{learner}$ 之间的分布偏移，我们定义了回合 $i$ 中令牌 $t$ 的令牌级似然比为：
$$\rho_{i,t}(\theta) = \frac{\pi_{\theta}(y_{i,t} \mid \mathbf{x}_i, y_{i,<t})}{\pi_{\theta_{\text{old}}}(y_{i,t} \mid \mathbf{x}_i, y_{i,<t})}.$$</div> **训练目标**。训练目标 $J(\theta)$ 结合了截断重要性采样，以在重用缓冲区中的离策略数据时稳定更新：
$$ \mathcal{J}(\theta)=\mathbb{E}_{a \sim \pi_{\text {sampler }}\left(\theta_{\text {old }}\right)}\left[\underbrace{\min \left(\frac{\pi_{\text {learner }}\left(a, \theta_{\text {old }}\right)}{\pi_{\text {sampler }}\left(a, \theta_{\text {old }}\right)}, C\right)}_{\text {truncated importance ratio }} \cdot \overline{\mathcal{J}}(\theta)\right], $$
其中 $C$ 是一个超参数，$ \bar{J

$$\bar{\mathcal{J}}(\theta) = \frac{1}{\sum_{t} m_{i,t}^{\text{resp}}} \sum_{t=1}^{L_i-1} m_{i,t}^{\text{resp}} \cdot \min\left(\rho_{i,t}(\theta) \hat{A}_{i,t}, \text{clip}(\rho_{i,t}(\theta), 1 - \epsilon_c, 1 + \epsilon_c) \hat{A}_{i,t}\right) - \beta D_{\text{KL}}(\pi_{\theta} \| \pi_{\text{ref}}).$$

直观解释。直观上，截断比率防止了当当前策略与数据收集策略显著偏离时梯度不稳定。这使得学习平面能够稳健地利用来自数据平面的多样化经验，表明支持扑克环境仅需要一个专门的数据平面实例化。

扑克游戏评估。我们使用最终筹码变化（一局/比赛结束时相对于初始筹码的净筹码；越高越好）在德州扑克环境中评估我们的方法。在表 4 中，列对应不同的对手——三个基于规则的对手（Rule-based1–Rule-based3）和一个 LLM 对手（高亮显示）。行对应被评估的玩家/智能体。对于 Qwen3-0.6B，我们报告了基础模型（第一行）及其经过 GRPO 训练的变体（第二行，标记为+GRPO）。对于所有其他骨干模型，我们报告了其直接 LLM 策略（即未经 GRPO 训练）在相同评估协议下的性能。

主要结果：GRPO 提升了 Qwen3-0.6B 对抗 LLM 对手的表现。对于 Qwen3-0.6B，GRPO 将其对抗 LLM 对手的结果从净亏损（-1.677）扭转为净利润（+1.245），表明 GRPO 可以在最具挑战性的环境中显著提高游戏结束时的盈利能力。同时，经过 GRPO 训练后，对三个基于规则的对手的表现变为负数，这表明存在一种权衡，可能通过多对手训练或更多样化的对手采样来解决。

Table 4 德州扑克中不同玩家策略对阵三个基于规则的对手和一个 LLM 对手（高亮）的评估。报告的指标是最终筹码变化（一局/比赛结束时相对于初始筹码的净筹码）。正值表示净利润，负值表示净亏损。只有 Qwen3-0.6B 包含 GRPO 训练的变体（第二行，标记为+GRPO）；所有其他行均为未经 GRPO 训练的直接 LLM 策略。