GLM-5.2: Built for Long-Horizon Tasks
GLM-5.2: Built for Long-Horizon Tasks
发表时间: 2026-06 · Blog post by Z.ai (z.ai)
A1 主要贡献
我们推出GLM-5.2,这是我们最新的旗舰模型,专为长时程任务而设计。与前代产品GLM-5.1相比,它在长时程任务能力上实现了重大飞跃,并首次在坚实的1M-token上下文上提供了这种能力。GLM-5.2的新功能包括:
- 坚实的1M上下文: 提供一个坚实的1M-token上下文,能够稳定地支持长时程工作。
- 具有灵活精力的先进编码能力: 更强的编码能力,具有多种思维精力级别,以平衡性能和延迟。
- 改进的架构: 我们提出了https://arxiv.org/abs/2603.12201【索引编号1,IndexShare,https://arxiv.org/abs/2603.12201】,该技术在每四个稀疏注意力层之间重用相同的索引器,在1M上下文长度下将每个token的FLOPs减少了2.9倍。我们还改进了GLM-5.2的MTP层以用于推测解码,使接受长度增加了高达20% 。
- 纯粹开放: 采用MIT开放源代码许可证——无地域限制,无国界技术访问。
A3 背景知识/关键观察/设计原则
坚实1M上下文上的长时程任务
支持长时程任务始于使长上下文在工程上可用:模型必须在长而混乱的编码智能体轨迹中保持质量,而不仅仅是接受更多的token。声称拥有1M上下文很容易,但在实际工程压力下保持其可靠性要困难得多。为此,我们大幅扩展了针对编码智能体场景的1M上下文训练,涵盖了大规模实现、自动化研究、性能优化和复杂调试。其结果是一个不仅范围广泛,而且执行坚实的常上下文系统:一个用于持续工程工作的实用基底。
这一能力体现在GLM-5.2在三个长时程编码基准测试中的表现。https://www.frontierswe.com衡量一个智能体是否能完成规模从几小时到几十小时的开放式技术项目,涵盖系统优化、大规模代码构建和应用机器学习研究。在此基准上,GLM-5.2仅比Opus 4.8落后1%,同时比GPT-5.5高出1%,比Opus 4.7高出11%。在https://posttrainbench.com上,每个智能体都获得一个H100 GPU,并根据其通过后训练改进小模型的能力进行评估,GLM-5.2的表现优于Opus 4.7和GPT-5.5,仅次于Opus 4.8,排名第二。在https://swe-marathon.vercel.app上,这是一个超长时程的软件工程基准,涵盖了构建编译器、优化内核和开发生产级服务等任务,GLM-5.2仍有增长空间,比Opus 4.8落后13%,但仍然仅次于Opus系列。在这三个基准测试中,GLM-5.2是排名最高的开源模型,表明其1M上下文已转化为实用的长时程交付能力。
具有灵活精力的先进编码能力
在标准编码基准测试中,GLM-5.2是功能最强的开源模型,相比GLM-5.1有大幅提升:在Terminal-Bench 2.1上为81.0对63.5,在SWE-bench Pro上为62.1对58.4。它还大大缩小了与闭源前沿模型的差距——在Terminal-Bench 2.1上(81.0),它与Claude Opus 4.8(85.0)仅相差几分——同时领先于Gemini 3.1 Pro。
GLM-5.2还引入了精力级别控制,使用户能够明确地在模型能力与任务执行速度和计算成本之间进行平衡。如图所示,在相当的token预算下,GLM-5.2提供了比GLM-5.1更强的智能体编码性能,其能力大致介于Claude Opus 4.7和Claude Opus 4.8之间,且token消耗相似。此外,Max精力级别允许用户在挑战性任务中需要更高性能时分配额外的计算资源,进一步扩展了模型的编码能力。这种设计为用户在使用GLM-5.2进行编码任务时提供了更大的灵活性,允许他们为不同场景选择最合适的推理模式。
A2 方法细节
1M上下文的架构
用于DSA的IndexShare
IndexShare在GLM-5.2中的应用。 为了支持1M的上下文长度,在GLM-5.2中,我们应用了https://arxiv.org/abs/2603.12201【索引编号1,IndexShare,https://arxiv.org/abs/2603.12201】来减少DSA中索引器的计算成本。具体来说,在GLM-5.2中,每4个Transformer层共享一个轻量级索引器。索引器被放置在4层中的第一层,其top-k索引被后续4层使用。这减少了3/4层中索引器点积和top-k操作的计算量。GLM-5.2从训练中期开始使用IndexShare进行训练,序列长度为128K,在长上下文基准测试中以更少的计算量超越了GLM-5.1 。
带有IndexShare和KVShare的MTP
MTP层优化目标。 我们改进了GLM-5.2的MTP层以用于推测解码,目标有两个:1)最小化作为草稿模型的MTP层的成本;2)最大化推测解码的接受率。
在MTP层应用IndexShare。 对于第一个目标,我们也在MTP层上应用了IndexShare。在多步MTP中,索引器被放置在第一步,并且其top-k索引被用于所有后续步骤。然而,与主干网络不同,不同MTP步骤的输入token是不同的。如图所示,如果我们重用$h_4$的top-k索引,$h_5$只能关注$h_1 \sim h_4$,而不能关注$h_5$。我们将展示这个特性可以帮助我们实现第二个目标,即通过消除GLM-5.1 MTP层中的训练-推理不一致性。
解决训练-推理不一致性。 在两步MTP层的推理中,第一步的推理与训练是一致的,所有隐藏状态都来自目标模型。然而,在第二步中,$h_{1:4}$来自目标模型,而$h_5$来自MTP层。因此,$h_5$的KV缓存是目标模型计算的$kv_{1:4}$和MTP层计算的$kv_5$的混合。相反,使用IndexShare后,$h_5$的KV缓存仅包含$kv_{1:4}$,全部来自目标模型的隐藏状态。在训练时,我们重用第一MTP步骤的KV缓存和top-k索引。请注意,与GLM-5.1相同,不同MTP步骤的参数也是共享的。此外,受https://arxiv.org/abs/2606.12370【索引编号2,https://arxiv.org/abs/2606.12370】的启发,我们引入了用于推测解码的拒绝采样,并使用端到端的TV损失进行训练 。
技术消融实验。 下表显示了通过接受长度对各项技术进行的消融实验,实验场景为编码场景。实验中我们使用了GLM-5.1的主干网络和训练数据。训练和推理的MTP步数均设置为7。与基线相比,最终MTP层的接受长度增加了20%。
| 方法 | 接受长度 |
|---|---|
| 基线 | 4.56 |
| + IndexShare + KV Share | 5.10 |
| + 拒绝采样 | 5.29 |
| + 端到端TV损失 | 5.47 (+20%) |
高效服务1M上下文长度
1M上下文推理的挑战。 随着GLM-5.2将最大上下文长度从200K扩展到1M token,编码工作负载预计将大幅转向更长的提示。这将主要的推理瓶颈从计算转移到KV缓存容量、长上下文内核开销和CPU侧开销。尽管新的GLM-5.2架构减少了每个token的计算FLOPs,但并未按比例减少每个token的KV缓存大小。因此,在有限的GPU资源下支持更长的上下文、更高的并发性和更高的token吞吐量成为推理引擎优化的核心挑战。
推理引擎优化策略。 为了应对这一挑战,我们从三个方向优化了推理引擎。首先,在LayerSplit的基础上,我们引入了更细粒度的内存管理和并行化策略,以增加KV缓存容量,并为超长上下文请求提供更多可用的缓存空间。其次,我们优化了那些成本随上下文长度增长的内核,并更好地将它们与缓存传输流水线协调,以最小化缓存传输对预填充(prefill)和解码(decode)性能的影响。第三,我们优化了CPU侧的缓存管理、请求调度和运行时执行路径,以减少GPU执行流水线中的“气泡”(bubbles),并提高端到端吞吐量。如图所示,随着上下文长度的增加,GLM-5.2实现了越来越大的吞吐量优势,展示了在长上下文推理场景中更强的可扩展性。
用于智能体强化学习的slime框架
slime框架的作用。 GLM-5.2的智能体强化学习(RL)后训练涉及更大规模、更多领域和更复杂执行模式的任务。异构的数据和任务需要在统一的训练流程中进行组织,而长时程交互、工具使用、子任务分解和多轮环境反馈都对部署(rollout)和训练的编排提出了更高的要求。为了支持这一过程,slime作为一个从训练到大规模推理部署的集成基础设施层。它支持多种训练和任务组织模式,包括白盒部署、黑盒部署、紧凑轨迹和子智能体工作流,使得同一系统能够扩展到更大、更复杂的RL和OPD(Offline Policy D-learning)训练工作负载。在GLM-5.2的后训练过程中,我们使用slime框架进行了并行的OPD训练,高效地将十多个专家模型合并到最终模型中。整个OPD训练过程耗时约两天,展示了高训练效率。
slime与推理系统的集成。 智能体RL也对系统资源和推理基础设施提出了更高的要求。slime为推理系统提供了一个高度开放和灵活的接口:训练端可以以不同形式连接到推理服务,并灵活适应不同的并行策略、路由策略、PD(Policy-Data)解耦设置和部署模式。同时,在RL部署期间积累的配置经验、调度策略和优化路径可以在生产服务阶段被重用和进一步完善,使训练端和服务端能够相互促进。这为从后训练到生产部署创造了一条更直接的路径。结合灵活的训练-推理资源组织和KV缓存FP8技术,slime为GLM-5.2的大规模智能体RL训练提供了关键的基础设施支持,进一步提高了系统效率、部署吞吐量和大规模推理并发性。
用于长时程任务和反“黑客”的强化学习
长时程任务的强化学习策略。 对于GLM-5.2,长时程任务会产生更长的执行轨迹,并且一旦一个超长轨迹通过压缩(compaction)被分割成多个子轨迹,同一提示下的不同部署会产生不同数量、长度差异巨大的可训练轨迹。因此,我们从分组优化(group-wise optimization)转向一种基于评论家(critic-based)的PPO(Proximal Policy Optimization)公式,该公式从单个部署中学习,依赖评论家来估计token级别的优势,而不是进行组内相对比较。这种单一部署的公式天然地适应了压缩,因为它对一个提示产生多少轨迹或它们的相对长度没有限制:我们通过将所有压缩后的子轨迹作为可训练轨迹纳入训练,并将token级别的损失应用于解决它们的长度不平衡问题,从而将压缩引入训练。
编码智能体中的反“黑客”问题。 编码RL特别容易受到奖励“黑客”(reward hacking)的攻击,因为奖励通常是一个可验证的通过/失败信号。我们发现GLM-5.2比GLM-5.1表现出更多的潜在“黑客”行为。这使得验证信号很容易被优化,但未能真正提高模型的基本能力。智能体可以读取受保护的评估文件、从参考资料或上游提交中复制答案内容,或在与GitHub相关的任务中直接获取目标源代码。例如,智能体可能会通过curl https://raw.githubusercontent.com/<path-to-file>下载解决方案,甚至进行链式泄露,例如:
1. find /workspace -name "*hidden*"
2. cat /workspace/.eval/secret_cases.json
3. python solve.py --case "$(cat /workspace/.eval/secret_cases.json)"
反“黑客”模块设计。 这些行为会夸大奖励并破坏训练信号,需要一个明确的机制来区分真正的任务解决和走捷径。为了解决这个问题,我们为RL训练和评估引入了一个反“黑客”模块。检测过程分为两个阶段:一个基于规则的过滤器首先捕获潜在的“黑客”行为以最大化召回率,然后一个LLM裁判检查这些被标记行为的意图以保持高精确率。我们使用一种在线策略,在每一步监控工具调用。如果检测到“黑客”行为,系统会阻止该调用并返回虚拟信息作为结果。重要的是,这种在线防护允许模型在捕获到“黑客”行为后继续进行部署。通过处理特定的无效行为而不是拒绝整个轨迹,这种方法有助于防止因突然停止部署而可能发生的训练不稳定和模型崩溃。
A7 补充细节
完整基准测试表
| 基准测试 | GLM-5.2 | GLM-5.1 | Qwen3.7-Max | MiniMax M3 | DeepSeek-V4-Pro | Claude Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|---|---|
| 推理 | ||||||||
| HLE | 40.5 | 31 | 41.4 | 37 | 37.7 | 49.8* | 41.4* | 45 |
| HLE (带工具) | 54.7 | 52.3 | 53.5 | – | 48.2 | 57.9* | 52.2* | 51.4* |
| CritPt | 16.7 | 4.6 | 13.4 | 3.7 | 12.9 | 20.9 | 27.1 | 17.7 |
| AIME 2026 | 99.2 | 95.3 | 97 | – | 94.6 | 95.7 | 98.3 | 98.2 |
| HMMT Nov. 2025 | 94.4 | 94 | 95 | 84.4 | 94.4 | 96.5 | 96.5 | 94.8 |
| HMMT Feb. 2026 | 92.5 | 82.6 | 97.1 | 84.4 | 95.2 | 96.7 | 96.7 | 87.3 |
| IMOAnswerBench | 91 | 83.8 | 90 | – | 89.8 | 83.5 | – | 81 |
| GPQA-Diamond | 91.2 | 86.2 | 90 | 93 | 90.1 | 93.6 | 93.6 | 94.3 |
| 编码 | ||||||||
| SWE-bench Pro | 62.1 | 58.4 | 60.6 | 59 | 55.4 | 69.2 | 58.6 | 54.2 |
| NL2Repo | 48.9 | 42.7 | 47.2 | 42.1 | 35.5 | 69.7 | 50.7 | 33.4 |
| DeepSWE | 46.2 | 18 | 18 | 20 | 8 | 58 | 70 | 10 |
| ProgramBench | 63.7 | 50.9 | – | – | 47.8 | 71.9 | 70.8 | 39.5 |
| Terminal Bench 2.1 (Terminus-2) | 81 | 63.5 | 75 | 65 | 64 | 85 | 84 | 74 |
| Terminal Bench 2.1 (最佳报告框架) | 82.7 (Claude Code) | 69 (Claude Code) | – | – | – | 78.9 (Claude Code) | 83.4 (Codex) | 70.7 (Gemini CLI) |
| FrontierSWE (截至26/6/16的优势) | 74.4 | 30.5 | – | – | 29 | 75.1 | 72.6 | 39.6 |
| PostTrainBench | 34.3 | 20.1 | – | – | – | 37.2 | 28.4 | 21.6 |
| SWE-Marathon | 13 | 1 | – | – | – | 26 | 12 | 4 |
| 智能体 | ||||||||
| MCP-Atlas (公共集) | 76.8 | 71.8 | 76.4 | 74.2 | 73.6 | 77.8 | 75.3 | 69.2 |
| Tool-Decathlon | 48.2 | 40.7 | – | – | 52.8 | 59.9 | 55.6 | 48.8 |
*:指它们在完整数据集上的得分。
开始使用GLM-5.2
通过GLM编码计划使用GLM-5.2。 您可以在您喜欢的编码智能体(如ZCode、Claude Code、OpenCode等)中尝试GLM-5.2(https://docs.z.ai/devpack/overview)。对于GLM编码计划的订阅者:我们已经向所有编码计划用户推出了GLM-5.2。您现在可以通过将模型名称更新为"GLM-5.2"(在Claude Code中为GLM-5.2[1m]以启用1M上下文长度)来启用GLM-5.2。您还可以根据任务选择不同的https://docs.z.ai/guides/capabilities/thinking-mode,如“高”或“最大”。作为我们最强大的模型,GLM-5.2在高峰时段以3倍的速率消耗配额,在非高峰时段以2倍的速率消耗。作为截至九月底的限时促销,非高峰时段的使用按1倍计费。(高峰时段为每天北京时间UTC+8 14:00–18:00)。
使用图形界面。 我们提供https://zcode.z.ai——一个由GLM-5.2驱动的桌面智能体,具有用于长时程任务的/goal功能、SSH远程开发和移动控制。特别优惠:在ZCode内通过编码计划使用GLM-5.2,可获得1.5倍的有效配额,直至6月30日。立即开始构建:https://z.ai/subscribe。
在Z.ai上与GLM-5.2聊天。 GLM-5.2现已在https://chat.z.ai上线。
本地部署GLM-5.2。 GLM-5.2的模型权重已在https://huggingface.co/zai-org/GLM-5.2和https://modelscope.cn/models/ZhipuAI/GLM-5.2上公开发布。对于本地部署,GLM-5.2支持包括transformers、vLLM、SGLang、xLLM、ktransformers在内的推理框架。
A4 实验环境
-
模型:
- 主要评估模型:GLM-5.2
- 对比模型:GLM-5.1, Qwen3.7-Max, MiniMax M3, DeepSeek-V4-Pro, Claude Opus 4.8, GPT-5.5, Gemini 3.1 Pro。
-
硬件配置:
- GPU:在PostTrainBench基准测试中,为每个智能体分配一个H100 GPU。
- CPU/内存:
- DeepSWE:隔离容器中2个CPU,8GB RAM。
- ProgramBench:沙箱中4个CPU,8GB RAM。
- Terminal-Bench 2.1:资源限制为4个CPU和8GB RAM。
-
软件配置:
-
代码实现/依赖库:
- 本地部署支持transformers, vLLM, SGLang, xLLM, ktransformers等推理框架。
- 评估框架:OpenHands (SWE-Bench Pro), pier (DeepSWE), Claude-Code (ProgramBench, Terminal-Bench 2.1), Terminus-2 (Terminal-Bench 2.1)。
-
评测裁判模型:
- GPT-5.5 (medium) 用于HLE, AIME, HMMT, IMOAnswerBench。
- Gemini-3.0-Pro 用于MCP-Atlas。
-
-
数据集/基准测试:
- 推理:HLE, CritPt, AIME 2026, HMMT Nov. 2025, HMMT Feb. 2026, IMOAnswerBench, GPQA-Diamond。
- 编码:SWE-bench Pro, NL2Repo, DeepSWE, ProgramBench, Terminal Bench 2.1。
- 长时程编码:FrontierSWE, PostTrainBench, SWE-Marathon。
- 智能体:MCP-Atlas, Tool-Decathlon。
- (详细的评估参数见附录)
A4 实验结果
- 长时程任务:在三个长时程编码基准(FrontierSWE, PostTrainBench, SWE-Marathon)上,GLM-5.2的表现显著优于其前身GLM-5.1,并且是排名最高的开源模型。其性能紧随顶尖的闭源模型(如Opus系列),在FrontierSWE上仅比Opus 4.8落后1%,在PostTrainBench上排名第二,显示了其1M上下文的实用性和强大的长时程任务交付能力。
- 标准编码任务:在SWE-bench Pro和Terminal-Bench 2.1等标准基准上,GLM-5.2是表现最强的开源模型,相比GLM-5.1有巨大提升(例如,Terminal-Bench 2.1得分从63.5提升到81.0)。它显著缩小了与闭源前沿模型(如Claude Opus 4.8)的差距。
- 灵活的性能与成本权衡:GLM-5.2引入的“精力级别”控制允许用户根据任务需求调整计算资源。在相似的token消耗下,其性能介于Claude Opus 4.7和4.8之间。Max精力级别可为挑战性任务提供更强的性能。
- 架构改进效果:通过引入IndexShare和改进MTP层,GLM-5.2在1M上下文长度下实现了更低的计算成本(每个token的FLOPs减少2.9倍),并使推测解码的接受长度增加了20%。
- 推理效率:通过对推理引擎在KV缓存管理、内核和CPU侧的优化,GLM-5.2在长上下文场景下实现了更高的吞吐量,且上下文越长,优势越明显。
- 综合基准表现:从“完整基准测试表”中可以看出,GLM-5.2在推理、编码和智能体任务的多个基准上都表现出色。在HLE、CritPt、AIME等推理任务上取得了高分。在DeepSWE等任务上,相较于GLM-5.1有巨大飞跃(从18分到46.2分)。
A5 结论
GLM-5.2在长时程任务能力上取得了重大突破,核心在于其坚实可靠的1M-token上下文,这不仅仅是技术指标的提升,更是工程实用性的保证。通过引入创新的架构设计,如IndexShare和优化的MTP层,模型在支持超长上下文的同时,显著降低了计算成本并提升了推测解码效率。在编码能力方面,GLM-5.2不仅在各项基准测试中成为最强的开源模型,还通过灵活的精力级别控制为用户提供了在性能和成本之间权衡的能力。为了支持复杂的智能体强化学习,我们开发了slime框架,并设计了反“黑客”模块以确保训练的有效性和鲁棒性。最终,GLM-5.2以完全开放的MIT许可证发布,旨在推动长时程AI应用的边界,为社区提供一个强大、高效且可信赖的基础模型。
A6 附录
脚注(评估设置)
Humanity's Last Exam (HLE) & 其他推理任务
* 采样参数: 我们使用temperature=1.0, top_p=0.95进行评估。
* 生成长度: 我们评估时最大生成长度为163,840个token。
* 报告范围: 默认情况下,我们报告纯文本子集的结果;标有的结果来自完整数据集。
* 特定任务设置: 对于AIME、HMMT和IMOAnswerBench,我们使用固定的答案格式系统提示来评估每个问题。
* 裁判模型: 我们使用GPT-5.5 (medium)作为裁判模型。
* HLE-with-tools:* 我们使用的最大上下文长度为300,000个token,没有使用上下文管理策略。
SWE-Bench Pro
* 运行方式: 我们使用OpenHands运行SWE-Bench Pro套件,并采用量身定制的指令提示。
* 设置: temperature=1, top_p=1, max_new_tokens=32k,上下文窗口为400K。
NL2Repo
* 评估参数: 我们在400K上下文下,使用temperature=1.0, top_p=1.0和max_new_tokens=48k对NL2Repo进行评估。
* 反“黑客”: 为防止“黑客”行为,我们使用基于规则和基于LLM的判断来阻止恶意行为(例如,未经授权的pip或curl操作)。
DeepSWE
* 运行方式: 我们使用官方的pier评估框架和mini-swe-agent测试工具运行DeepSWE。
* 设置: temperature=1.0, top_p=1.0, timeout=2h,上下文为400K。
* 环境: 每个任务都在一个隔离的容器中解决,配备2个CPU,8GB RAM,并且没有互联网访问权限。
ProgramBench
* 运行方式: 我们使用Claude-Code 2.1.156评估ProgramBench(200个实例)。
* 设置: temperature=1.0, top_p=1.0, max_tokens=64000, max_turns=2000, sample_timeout=6h, reasoning_effort=max,上下文窗口为400K。
* 环境: 每个实例在一个(4个CPU,8GB RAM)的沙箱中运行,禁用了互联网访问。
Terminal-Bench 2.1 (Terminus 2)
* 运行方式: 我们使用Terminus-2框架评估Terminal-Bench 2.1。
* 设置: parser=json, timeout=4h, temperature=1.0, top_p=1.0, max_new_tokens=48k, max_episodes=500,上下文窗口为256K。
* 资源限制: 资源上限为4个CPU和8GB RAM。
Terminal-Bench 2.1 (Claude Code)
* 运行方式: 我们在Claude Code 2.1.167中进行评估。
* 设置: temperature=1.0, top_p=0.95, max_new_tokens=131072。我们通过一个透明代理将max_new_tokens覆盖为128k,绕过了64k的CLI上限,以恢复CLAUDE_CODE_MAX_OUTPUT_TOKENS的可配置性。
* 限制: 我们移除了挂钟时间限制,但保留了每个任务的CPU和内存限制。
* 结果: 分数是5次运行的平均值。在评估Gemini 3.1 Pro和GPT-5.4时,这两个模型有时会识别出任务存在安全风险并拒绝执行,这可能会降低它们的分数。
MCP-Atlas
* 运行方式: 所有模型都在“思考模式”(think mode)下对500个任务的公共子集进行评估,每个任务有10分钟的超时限制。
* 裁判模型: 我们使用Gemini-3.0-Pro作为评估的裁判模型。
Tool-Decathlon
* 运行方式: 我们使用官方评估服务,并将max_token设置为128K。
FrontierSWE
* 评估方: 评估由https://www.proximal.ai进行。
* 设置: 1M上下文长度,最大精力级别(max effort level),以及128K最大输出token。
* 报告时间: 报告的优势分数为截至2026年6月16日的数据。
PostTrainBench
* 评估方: 评估由https://posttrainbench.com进行。
* 设置: 1M上下文长度,最大精力级别,以及128K最大输出token。
SWE-Marathon
* 评估方: 评估由https://www.abundant.ai进行。
* 设置: 1M上下文长度,最大精力级别,以及128K最大输出token。
💬 评论讨论
欢迎在这里分享您的想法和见解!