CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

Weinan Dai1,2,3∗, Hanlin Wu1,2,3∗, Qiying Yu1,2,3, Huan-ang Gao1,2,3, Jiahao Li1, Chengquan Jiang1, Weiqiang Lou1, Yufan Song1, Hongli Yu1,2,3, Jiaze Chen1,3, Wei-Ying Ma2,3, Ya-Qin Zhang2,3, Jingjing Liu2,3, Mingxuan Wang1,3, Xin Liu1, Hao Zhou2,3†

1ByteDance Seed 2Institute for AI Industry Research (AIR), Tsinghua University 3SIA-Lab of Tsinghua AIR and ByteDance Seed

1. 主要贡献

本文提出了 CUDA Agent，这是一个大规模的代理强化学习系统，旨在解决现有大型语言模型（LLM）在生成高性能 CUDA 内核代码方面竞争力不足的问题。尽管 LLM 在通用编程中表现出色，但在 CUDA 内核生成方面仍落后于 torch.compile 等基于编译器的系统。现有的方法要么依赖无训练的微调，要么在固定的多轮执行反馈循环中微调模型，都未能从根本上提升模型内在的 CUDA 优化能力。

为了克服这些限制，本文的主要贡献集中在以下三个方面：

可扩展的数据合成管道（Data Synthesis Pipeline）：设计了一个三阶段的数据收集管道，通过从 PyTorch 和 Transformer 库中抓取种子算子，利用 LLM 进行组合合成，并实施严格的基于执行的过滤，从而构建了一个涵盖广泛难度级别的训练数据集。
增强技能的 CUDA 开发环境（Skill-Augmented Environment）：采用代理技能（Agent Skills）范式，为模型配备了结构化的规范（http://SKILL.md），形式化了编写、验证和优化 CUDA 内核的标准工作流程。环境集成了自动化的验证和性能分析脚本，并实施了严格的正确性和性能测试及权限隔离，以提供可靠的奖励信号并防止奖励欺诈（Reward Hacking）。
支持稳定训练的 RL 算法技术：分析了 RL 优化不稳定的根源，并针对 Actor 和 Critic 模型提出了多阶段预热（Warm-up）策略，实现了大语言模型在长上下文（128k token）和多轮交互（200 turns）下的稳定训练。

实验结果表明，CUDA Agent 在 KernelBench 上取得了最先进（SOTA）的性能。在 KernelBench 的 Level-1、Level-2 和 Level-3 划分上，相较于 torch.compile 分别实现了 100%、100% 和 92% 的更优率（Faster Rate）。在难度最高的 Level-3 设置中，其表现超越了 Claude Opus 4.5 和 Gemini 3 Pro 等最强专有模型约 40%。

图1 三阶段数据收集管道概览。首先从 PyTorch 和 Transformer 库中抓取种子算子，建立基础计算原语库。接着，LLM 执行组合合成以生成融合的多算子任务。最后，基于规则的过滤阶段仅保留可执行、确定性、非平凡且工作负载合理的问题，以确保数据质量和可靠的评估。

2. 方法细节

3.1 可扩展的训练数据合成管道

由于高性能 CUDA 内核的稀缺性，手动实现专家级参考代码成本过高，限制了监督微调的效果。为了支持强化学习（RL），需要大量且多样的基于 PyTorch 实现的参考算子作为训练任务。本文开发了一个可扩展的数据收集管道（如图 1 所示），包含以下三个步骤：

种子问题抓取（Seed Problem Crawling）
首先，从 torch 和 transformers 库中挖掘基于 PyTorch 实现的参考算子，建立全面的种子问题集。每个算子被表示为一个包含初始化和前向传播方法的 Python 类。选择这些库是因为它们被广泛使用且维护良好，从而排除了代码质量不足的个人仓库。

组合问题构建（Combinatorial Problem Construction）
为了扩展数据集并引入更高的复杂性，利用 LLM 合成聚合算子。具体而言，提示 LLM 从 torch 库中采样不超过 5 个算子类。这些采样的算子类被顺序堆叠成一个单一的计算层。此处不从 transformers 库中采样算子类，因为这些算子通常已经是封装了多个原语操作的高级模块。

基于执行的过滤（Execution-Based Filtering）
最后，实施严格的数据选择过程，根据执行反馈过滤掉太容易或太难的问题。对每个算子进行四项标准的验证：
1. 可执行性：算子必须在 Eager 模式和 Compile 模式下都能成功执行。
2. 确定性：为了确保可复现性，排除具有固有随机性的算子。
3. 防欺诈（Anti-hacking）：验证不同输入的输出既不是恒定值，在数值上也是可区分的。
4. 工作负载合理性：为了过滤掉微不足道或过重的任务，将 Eager 模式下的执行时间限制在 1 毫秒到 100 毫秒之间。

此外，还排除了与 KernelBench 测试用例具有高相似度的算子（相似度分布见附录 A）。最终过滤后的合成训练数据集包含 6,000 个样本，构成了 CUDA-Agent-Ops-6K 数据集。

3.2 技能集成的代理循环（Skill-Integrated Agent Loop）

代理循环（Agent Loop）
鉴于 CUDA 内核编码是编码代理的一个子任务，代理循环的设计与广泛采用的 OpenHands 框架对齐以确保通用性。LLM 被提供了一套标准的 Shell 工具——BashTool、GlobTool、MultiEditTool 和 TodoWriteTool——以全面支持 CUDA 编码开发。在此基础上，代理循环（如图 2 所示）遵循 ReAct 风格范式，交错进行推理、动作执行和观察，以实现迭代式的编码、调试和性能优化。

CUDA 编码技能（CUDA Coding Skill）
受 Agent Skills 理念的启发，特意将 CUDA 编码特定的指令和工具（如用于比较生成内核与 torch.compile 性能的分析工具）格式化为代理技能。设计了专门的 CUDA 内核编码指令 SKILL.md，规范化了优化 CUDA 内核的标准流程：
1. 使用提供的 profile.py 脚本分析原生 PyTorch 实现的性能。此步骤识别性能瓶颈和优化机会，例如过多的内核启动和次优的内存访问模式。
2. 通过在 model_new.py 中重写模型并开发相应的 CUDA 内核源文件及绑定代码，实现自定义 CUDA 算子，针对分析阶段确定的性能关键算子进行优化。
3. 在提供的 GPU 沙盒环境中编译和评估优化后的模型，并迭代完善 CUDA 内核实现，直到数值正确性和性能要求都得到满足。
4. 从步骤 2 开始重复优化过程，直到最终实现通过所有数值正确性检查，并相较于 torch.compile 基线实现至少 5% 的加速。

鲁棒的奖励调度（Robust Reward Scheduling）
现有的 CUDA 生成 RL 方法通常使用相对于基线的加速比作为奖励信号。然而，这种方法容易受到异常值的影响，并偏向于简单的内核。为了解决这个问题，并联合优化正确性和执行延迟，提出了一种归一化的鲁棒奖励方案。

根据正确性和性能分配奖励分数 $r \in {-1, 1, 2, 3}$：

$$\begin{aligned} r = \begin{cases} -1 & \text{if correctness check fails} \\ 3 & \text{if } b(t, t_{\text{eager}}) \wedge b(t, t_{\text{compile}}) \\ 2 & \text{if } b(t, t_{\text{eager}}) \\ 1 & \text{otherwise} \end{cases} \end{aligned}$$

其中 $t$ 是生成内核的运行时间，$t_{\text{eager}}$ 和 $t_{\text{compile}}$ 分别是 PyTorch Eager 实现和 torch.compile 版本的运行时间，$b(t, t_0) = \mathbb{I} [(t_0 - t)/t_0 > 5\%]$ 表示相对于基线 $t_0$ 有显著加速。

防止奖励欺诈的措施（Efforts to Avoid Reward Hacking）
系统强制执行以下约束以避免奖励欺诈：
1. 权限控制：用于正确性验证和性能分析的 Python 脚本通过文件权限控制进行保护，防止代理修改或干扰评估逻辑。
2. 禁止回退：使用上下文管理器强制执行时间约束，明确禁止调用 torch.nn.functional 中的回退实现，确保性能提升仅源于生成的 CUDA 内核。
3. 多输入验证：对于每个问题，严格遵循 KernelBench 评估协议，针对五个随机采样的输入验证内核输出，以确保功能正确性。
4. 去噪分析：分析管道经过精心设计，包含适当的设备同步、预热迭代和重复测量平均，大幅减少了测量噪声和指标波动。
5. 无外部访问：不向代理提供任何网络搜索或外部信息检索工具，确保所有解决方案纯粹源自本地执行环境。

3.3 稳定 RL 训练的算法改进

针对初始 RL 尝试中模型在 17 步后即性能崩溃的问题，确定了根本原因并提出了多阶段预热策略。

训练不稳定的根本原因
根源在于严重的领域分布不匹配。基础模型的学习先验与 CUDA 内核编码所需的数据分布偏差显著（CUDA 代码仅占预训练数据的 0.01%）。这种分布差距导致大量低概率的 CUDA 内核代码 token 被采样。此外，当训练和推理引擎使用不同的数值精度（如 BF16 vs FP16）时，这些低概率 token 会导致重要性采样比率方差极大，因为在精度下限附近的微小数值误差会导致重要性比率 $\rho_t(\theta)$ 剧烈波动或爆炸。

为了实现稳定的强化学习，提出了一种简单而有效的预热策略：使用基础模型在单轮 RL 后生成的代理轨迹来初始化 Actor 和 Critic 模型（如图 3 所示）。

图3 训练管道概览。在单轮 RL 预热阶段之后，采样的轨迹被用于在代理 RL 阶段之前初始化 Actor 模型和 Critic 模型。

单轮预热（Single-Turn Warm-up）
首先在基础模型上执行单轮 RL，以增强其生成 CUDA 内核的能力。使用 PPO 进行优化，其中基础模型既作为策略网络也作为价值网络。

Actor 初始化（Actor Initialization）
接着，在代理轨迹上采用拒绝微调（Rejection Fine-Tuning, RFT）阶段来初始化 Actor 模型 $\pi_\theta$。使用单轮 RL 得到的模型在 3.2 节所述的代理循环中运行，收集 CUDA 代理轨迹。然后，对收集到的轨迹应用 RFT。根据以下规则进行拒绝采样以保留高质量的 rollout：
1. 结果过滤：仅保留获得正奖励（$R > 0$）的轨迹。
2. 模式过滤：丢弃表现出低效或无效行为的轨迹，例如冗余的多轮循环或违反预定义工具调用模式的幻觉。

过滤后的轨迹用于通过标准监督微调优化 Actor，目标函数如下：

$$\mathcal{L}_{\mathrm{RFT}}(\theta)=-\mathbb{E}_{\tau \sim \mathcal{D}^{\prime}}\left[\sum_{t=1}^{T} \log \pi_{\theta}\left(a_{t} \mid s_{t}, a_{<t}\right)\right],$$ <p>其中 $\tau = (s_0, s_1, \dots, s_{T-1})$ 表示过滤后的 CUDA 代理轨迹，$\pi_\theta$ 是参数化为 $\theta$ 的策略，$D'$ 表示拒绝采样后的数据集。

Critic 初始化（Critic Initialization）
执行价值预训练（Value Pretraining）来初始化 Critic。具体而言，利用包含状态序列及其对应结果奖励的采样轨迹数据来预训练 Critic 网络。令 $\tau = (s_0, s_1, \dots, s_{T-1})$ 表示轨迹，其中 $s_t$ 表示 token 位置 $t$ 处的状态，$r$ 表示在最后一个 token 处分配的结果奖励。使用广义优势估计（Generalized Advantage Estimation）计算目标值：

$$V_{t}^{\text{targ}} = V_{\phi}(s_{t}) + \hat{A}_{t}, \quad \text{where} \quad \hat{A}_{t} = \sum_{l=0}^{T-1-t} (\gamma \lambda)^{l} \delta_{t+l},$$

其中 $\delta_t = r_t + \gamma V_\phi(s_{t+1}) - V_\phi(s_t)$ 是时间差分误差，且 $V_\phi(s_T) = 0$。实验中设置 $\gamma = 1$ 和 $\lambda = 0.95$。通过最小化均方误差来优化 Critic 参数 $\phi$：

$$\mathcal{L}_{\mathrm{VP}}(\phi)=\frac{1}{2} \mathbb{E}_{\tau \sim \mathcal{D}}\left[\frac{1}{T} \sum_{t=0}^{T-1}\left(V_{\phi}\left(s_{t}\right)-V_{t}^{\mathrm{targ}}\right)^{2}\right],$$

其中 $\mathcal{D}$ 表示代理轨迹的集合。

RL 算法（RL Algorithm）
采用 PPO 优化 Actor 模型 $\pi_\theta$。令 $\pi_{\theta_{\text{old}}}$ 表示用于轨迹采样的旧策略。使用剪切的代理目标函数最大化预期回报：

$$\begin{aligned} \begin{aligned} \mathcal{L}^{\text{CLIP}}(\theta) = \mathbb{E}_{\tau \sim \mathcal{D}} \bigg[ \frac{1}{T} \sum_{t=0}^{T-1} \min \big( & \rho_t(\theta) \hat{A}_t, \\ & \text{clip}(\rho_t(\theta), 1 - \epsilon_{\text{lower}}, 1 + \epsilon_{\text{higher}}) \hat{A}_t \big) \bigg] \end{aligned} \end{aligned}$$

其中 $\rho_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$ 是当前策略与旧策略之间的重要性采样比率，$a_t$ 表示位置 $t$ 处采取的动作（即 token）。遵循相关文献，设置 $\epsilon_{\text{lower}} = 0.2, \epsilon_{\text{higher}} = 0.28$。

3. 设计原则与关键观察

在方法细节之前，本文提出了一些关键的设计原则和观察，这些原则指导了系统的构建。

RL 不稳定性的根源分析：如 3.3 节所述，训练不稳定主要源于基础模型在 CUDA 领域的先验知识极度匮乏（<0.01% 数据占比）。这种分布失配不仅导致采样出低质量代码，还会在使用不同数值精度（如训练用 BF16，推理用 FP16）时，导致低概率 token 的概率计算出现微小误差，进而引发重要性采样比率（Importance Sampling Ratio）的剧烈波动甚至爆炸。

组合融合的重要性：在数据合成中（3.1 节），关键观察是组合多个算子形成融合任务能产生有价值的训练问题。这是因为组合问题通常不等同于简单地优化每个独立算子然后串联。融合改变了优化格局，避免了中间全局内存的物化，并通过共享寄存器/SMEM/占用率约束耦合了各个阶段，需要统一的并行映射和数据布局。

4. 实验环境

基础模型：Seed1.6，一个混合专家（MoE）模型，拥有 23B 激活参数和 230B 总参数。
训练设置：全局批量大小为 1024。Actor 和 Critic 的学习率分别为 $3 \times 10^{-6}$ 和 $6 \times 10^{-6}$。单轮 RL 上下文窗口为 32768，代理 RL 为 131072。训练 rollouts 最多 150 轮交互，评估时放宽至 200 轮。
沙盒环境：设计了 CPU-GPU 资源解耦的沙盒架构。Docker 终端沙盒处理 CPU 任务（如编译），并通过预定义的技能脚本将验证和分析任务分发到专用的 GPU 沙盒池（128 张 NVIDIA H20 GPU）。这种进程级隔离和独占资源分配消除了干扰，确保了稳定的延迟测量。
数据集：KernelBench (Level 1 至 Level 3 子集)，共 250 个不同算子任务。
基线模型：Claude Opus 4.5, Gemini 3 Pro, GLM 4.6, Kimi K2 以及 torch.compile。

5. 实验结果

主结果分析
Table 1 总结了 CUDA Agent 与强专有模型基线在 KernelBench 上的性能。

CUDA 编码能力：与 Claude Opus 4.5 和 Gemini 3 Pro 相比，CUDA Agent 展现了更强的编码能力。虽然专有模型通过率较高（91.2%–95.2%），但其 Faster Rate 较低（66%–69%），说明它们生成的内核往往无法超越 torch.compile。相比之下，CUDA Agent 实现了 98.8% 的通过率和 96.8% 的 Faster Rate。
超越静态编译器：CUDA Agent 证明了学习到的优化策略可以持续超越静态编译器启发式算法，特别是在算子融合等复杂场景中。在 Level 2 任务（算子序列）中，CUDA Agent 实现了完美的 100% Faster Rate 和相对于 torch.compile 的 2.80 倍加速。

Table 1 KernelBench 上的主要结果。报告了通过率（Pass Rate）、更优率（Faster Rate，即快于基线的内核百分比）和几何平均加速比（Geometric Mean Speed-up）。指标是相对于 PyTorch Eager 和 PyTorch Compile 两个基线报告的。整体指标根据每个等级的问题数量加权（Level 1: 100, Level 2: 100, Level 3: 50）。粗体表示最佳性能。

消融研究
Table 2 展示了不同组件的影响。

代理循环的影响：移除代理循环（即单轮模型）导致正确性和优化质量大幅下降。单轮模型无法获得编译错误和分析器反馈，导致生成的内核性能甚至不如基线。
奖励设计的影响：将鲁棒奖励替换为原始加速比奖励（w/o Robust Reward）后，虽然功能正确性相当，但优化性能显著减弱。鲁棒奖励通过设定明确的性能里程碑，引导策略发现真正的加速。
多阶段训练的影响：移除 RFT 或 Value Pretraining 都会导致性能下降，且表现出训练不稳定和最终崩溃（Collapse）。
- RFT：移除 RFT 导致训练奖励迅速崩溃（图 4a），且策略熵急剧增加（图 4b），表明策略分布变得发散且结构混乱。RFT 提供了关键的行为先验。
- Value Pretraining：没有初始化的 Critic 无法捕捉多轮交互状态的价值（图 5a），导致轨迹长度爆炸（图 5b），因为未初始化的 Critic 无法惩罚无效的搜索路径。

Table 2 消融研究。比较了完整模型与留一法变体在代理循环评估下的表现。分析了 (1) 代理循环，(2) 鲁棒奖励设计，(3) RFT，和 (4) 价值预训练的贡献。对于没有 RFT 或价值预训练的变体，报告的是训练崩溃前最后验证步骤的结果。

图4 消融：RFT。移除 RFT 导致训练奖励崩溃。同时 Actor 熵的增加表明策略变得日益发散且结构不良。

图5 消融：价值预训练。没有价值预训练，Critic 无法学习有意义的价值函数（低解释方差），导致探索效率低下，表现为交互轨迹过长。

6. 结论

本文介绍了 CUDA Agent，这是一个大规模代理强化学习系统，赋予了大型语言模型在真实的、执行驱动的开发工作流中生成和优化 CUDA 内核的能力。通过联合扩展数据合成、代理环境和面向稳定性的 RL 训练，CUDA Agent 将 LLM 从被动的代码生成器转变为主动的系统优化器，在 KernelBench 上相对于 torch.compile 和强专有模型取得了一致的增益。这些结果表明，为基础模型配备结构化环境和可靠的执行反馈，是实现 GPU 计算中性能关键型软件开发自动化的有效途径。

7. 附录

A 训练数据详情

算子格式：每个训练样本是一个用 PyTorch 实现的 Python 类（torch.nn.Module 子类）。包含 __init__ 和 forward 方法，以及用于生成的辅助函数 get_init_inputs() 和 get_inputs()。
数据去污染：使用基于 AST 的代码相似度工具进行去污染。如果训练样本与任何评估程序的 AST 相似度超过 0.9，则将其移除。过滤后无高相似度样本（图 7）。
数据集构成：主要由通过顺序堆叠 1 到 5 个 torch 算子构成的复合算子类组成，以及部分 transformers 算子。

B 代理循环详情
* 工具列表：Bash（执行命令）、Read/Write（文件操作）、Edit/MultiEdit（代码修改）、Glob（文件查找）、Grep（代码搜索）、NotebookEdit（Notebook 操作）、BashOutput/KillBash（进程管理）。
* http://SKILL.md：定义了严格的限制（禁止在 C++ 中使用 torch 算子，禁止修改基础设施文件），统一的工作流（实现 -> 编译测试 -> 性能优化），以及优化清单（内存合并、内核融合、共享内存等）。

C 并行工作讨论
与其他工作的主要区别：
* STARK：多代理固定角色 vs 本文单代理自主交互。
* ReGraphT：侧重于蒸馏到小模型。
* EvoEngineer：仅在 KernelBench 的子集上评估。
* CudaForge：基于固定交互协议的双代理系统。
* Kevin & CUDA-L1 & ConCuR：存在使用 KernelBench 数据进行训练或微调的数据泄露问题，使得比较不公平。

8. 补充细节（案例研究）

常见优化模式
CUDA Agent 展示了多种常见优化模式：
1. 代数简化和算子规约：将复杂的张量表达式简化。例如将对角矩阵乘法简化为行缩放。
2. 内核融合：将多个逻辑相关的操作（如加法、乘法、激活）合并为一个内核，减少中间张量物化和启动开销。
3. 内存访问优化：强调合并全局内存访问，使用向量化加载（float4），以及利用共享内存进行块内归约。
4. 硬件感知优化：启用 TF32 计算以利用 Tensor Cores。
5. 库感知优化：识别并调用高度优化的库（如 cuDNN）来替代多个独立算子。

案例 D.2 (Level 1): 对角矩阵乘法
参考模型计算对角向量构造的矩阵与稠密矩阵的乘积。CUDA Agent 识别出这等价于行缩放，从而避免了构建中间对角矩阵和执行 GEMM，将复杂度从 $O(N^2M)$ 降低到 $O(NM)$。生成的内核使用网格跨步循环直接执行行缩放，实现了 73.31 倍的加速。

案例 D.3 (Level 2): 矩阵乘、除、求和及缩放
参考模型包含一系列操作。CUDA Agent 通过代数重排，将“矩阵乘法后归约”转换为“权重矩阵列归约后点积”：

$$\sum_{j} \frac{x_{i} \cdot w_{j}^{T}}{2}=x_{i} \cdot\left(\sum_{j} w_{j}^{T}\right) / 2,$$

生成的实现包含两个内核：一个计算权重列和，另一个执行点积并融合了除法和缩放。利用 float4 加载和共享内存归约，实现了 24.04 倍的加速。

案例 D.4 (Level 3): ResNet BasicBlock
对于包含卷积、BN、残差连接的 ResNet 块。CUDA Agent 采用了：
1. 在 Python 层面将 BatchNorm 参数折叠进卷积权重。
2. 使用 cudnnConvolutionBiasActivationForward API 在单个 cuDNN 内核中执行卷积、偏置加法和 ReLU。
3. 启用 TF32。
4. 将残差加法和最后的 ReLU 融合为一个自定义 CUDA 内核。
最终实现了 3.59 倍的加速。

图18 Resnet BasicBlock 的自定义算子 (Case D.4).

PaperCache

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

1. 主要贡献

2. 方法细节

3.1 可扩展的训练数据合成管道

3.2 技能集成的代理循环（Skill-Integrated Agent Loop）

3.3 稳定 RL 训练的算法改进

3. 设计原则与关键观察

4. 实验环境

5. 实验结果

6. 结论

7. 附录

8. 补充细节（案例研究）

💬 评论讨论

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

1. 主要贡献

2. 方法细节

3.1 可扩展的训练数据合成管道

3.2 技能集成的代理循环（Skill-Integrated Agent Loop）

3.3 稳定 RL 训练的算法改进

3. 设计原则与关键观察

4. 实验环境

5. 实验结果

6. 结论

7. 附录

8. 补充细节（案例研究）

💬 评论讨论

登录

注册

忘记密码

重发验证邮件