Bytedance Seed
本文介绍了 Seed2.0 系列模型(Pro / Lite / Mini),旨在解决大语言模型(LLM)从解决竞赛级问题向处理现实世界复杂性(Real-World Complexity)转变的挑战。Seed 团队不仅发布了通用的 LLM,还开发了包括多模态模型、代码专用模型、数学证明模型等在内的全面模型家族。Seed2.0 的核心设计目标是在大规模生产环境中提供最佳的用户体验,具体贡献如下:
Figure 1 MaaS usage distribution in mainland China. Left: Industry traffic distribution showing strong dominance of the Internet sector. Right: Business Customer Usage Scenario Distribution. These statistics is named “Doubao Collaboration Incentive Program” , which sourced from the authorization of customers who have signed the Data Authorization Agreement.
MaaS 在中国大陆的使用模式
中国大陆的 MaaS(Model-as-a-Service)使用模式高度集中在面向企业的数字产业和认知密集型应用中。在行业层面,互联网行业占据绝对主导地位,其次是消费电子、金融、新零售和商业服务。传统垂直行业如制造业、汽车和通信的使用量不到总量的 1%。主要行业具有高信息密度、快速产品迭代周期以及模型与生产系统紧密集成的特征。在场景层面,非结构化信息处理和分析占据最大份额,其次是教育、内容创作以及搜索和推荐。Seed 模型被定位为面向工作流的 MaaS 基础,而非轻量级对话模型,强调多模态理解、长上下文推理和工具增强的执行能力。
Agentic Coding 中的查询分布
通过分析开发者轨迹级的使用数据,发现前端开发占据主导地位(Fig 2)。页面布局、样式和 UI 逻辑管理的查询远超后端或全栈任务。这反映了前端工作的迭代性质(视觉反馈循环鼓励频繁交互)以及 AI 辅助前端任务的相对可及性。Vue.js 的采用率远超 React,反映了中国大陆的开发者生态。在任务类型上,Bug 修复占据首位,其次是重构和文档工作,表明开发者主要寻求 AI 协助进行被动维护而非全新开发。这启示模型开发应优先考虑 JavaScript/TypeScript 理解、CSS 布局推理以及调试能力(追踪错误信息、理解堆栈跟踪)。
成本效益设计原则
Seed2.0 的一个关键优势在于其成本结构。如 Table 1 所示,Seed2.0 在提供与前沿模型相当的用户体验的同时,其 Token 定价大约低了一个数量级。这种成本差异对于企业级 MaaS 部署至关重要,使得大规模非结构化信息处理和内容生成等高容量、工作流集成的用例在经济上变得可行。Seed2.0 Mini 的解码价格低于每百万 Token 0.50 USD,为高吞吐量、延迟敏感的应用提供了可能。
基础语言能力评估框架
为了衡量基础能力,Seed2.0 在包括 AIME 2025、GPQA Diamond [76]、LiveCodeBench [44] 等一系列基准上进行了评估。除了标准基准,本文特别强调了长尾专业知识(Long-tail Professional Knowledge)的评估。受 SuperGPQA [28] 启发,设计了 LPFQA [132] 和 Encyclo-K [48] 两个新基准。LPFQA 基于专业论坛和专家社区的长尾问题构建,涵盖编程、金融、工程等领域,用于衡量检索和综合长尾专业知识的可靠性。Encyclo-K 则从书籍中提取原子知识陈述并动态组合成评估实例,支持零样本和少样本上下文学习(ICL)评估,以测试模型是否真正掌握了长篇来源中的结构化知识。此外,还构建了 HLE-Verified,这是 Humanity’s Last Exam 的经过专家审查的子集,剔除了模糊或不可验证的问题。
基础视觉能力评估框架
Seed2.0 的图像理解能力通过 50 个公共图像基准和 24 个公共视频基准进行评估。图像基准涵盖九大类:
* MultiModal Math:评估视觉上下文中的数学推理,使用 MathVista [52]、DynaMath [133] 等。其中 DynaMath 报告最坏情况准确率(需答对所有 10 个变体)。
* MultiModal STEM:评估科学和工程领域的专业知识,使用 MMMU [117]、PhyX [80] 等。
* Visual Puzzles:通过 LogicVista [106] 和 ArcAGI (Image) [72] 等测试抽象推理和模式识别。
* Perception & Cognition:使用 VLMsAreBiased [90] 等评估幻觉最小化和偏差缓解。
* General VQA:通过 SimpleVQA [20]、VibeEval [66] 等评估处理开放式查询的能力。MTVQA [83] 使用 LLM-judge 进行评估。
* Pointing & Counting:使用 CountBench [67] 等测试细粒度视觉定位和计数。
* 2D & 3D Spatial Understanding:使用 BLINK [33]、MMSIBench [112] 等评估几何关系和深度理解。
* Document & Chart Understanding:涵盖 ChartQAPro [58]、OmniDocBench [65] 等,测试密集文本提取和复杂图表解读。
* LongContext Understanding:使用 DUDE [89]、MMLongBench [98] 等测试多页文档或长视频的处理能力。
视频理解评估涵盖六个维度:视频知识(VideoMMMU [39])、视频推理(VideoReasonBench [51], Morse-500 [9])、动作与感知(TVBench [21])、长视频理解(VideoMME [30])、多视频理解(CrossVid [46])和流媒体视频理解(OVBench [43])。对于 Morse-500 和动作感知基准,分别提高了输入帧率以适应推理需求。
基础 Agent 能力评估框架
为了评估模型规划、调用工具和完成多步骤任务的能力,本文对测试脚本进行了系统重构以优化执行稳定性和可复现性,包括消除冗余环境配置、修复参考脚本环境和使用内部镜像替换外部包存储库。评估排除了具有不确定性行为或网络依赖的低质量测试用例。评估维度包括:
* Coding Agents:涵盖存储库级软件工程,如 Terminal-Bench [59]、SWE-Bench [45]、NL2Repo-Bench [25]。
* Search Agents:如 BrowseComp [101]、WideSearch [102]。
* Tool Use:如 $\tau^2$-Bench [5]、BFCL-v4 [68]。
* GUI Agents:如 Minedojo-Verified [29]。
* Deep Research:如 DeepResearch [27]、ResearchRubrics [79]。
高级经济与科学价值任务评估
为了反映 Agent 时代的范式转变,评估框架包含四个高级维度:
1. Scientific Discovery:引入 Ainstain Bench [27] 评估科学编码能力,以及 BABE [129] 评估生物领域的跨模态科学推理。
2. Vibe Coding:构建 NL2Repo-Bench,衡量模型是否能根据自然语言规范在单次端到端过程中完成整个软件存储库的构建,关注跨文件一致性和依赖管理。
3. Economically Valuable Fields:开发了内部基准测试,涵盖 教育(K-12 问题解决)、文本分类(意图识别、情感分析)和 信息提取(从合同、会议记录等异构文档中提取结构化元素)。
4. Context Learning & Real-World Tasks:引入 DeR2 [115] 评估从嘈杂的长篇技术文档中提取信息的能力。构建 Customer Support Q&A 和 Complex Workflow 场景以反映企业工作负载。此外,使用 WorldTravel [97] 评估现实场景中的多步骤计划生成能力。
Table 3 Evaluation on Fundamental Language Capacity Benchmarks (Large Models). The highest score is marked in bold, and the second is underlined.
Table 8 Performance of Seed2.0 on public visual-language benchmarks compared to previous models. We report Pass@1 in these benchmarks. The best score for each benchmark is marked in bold, and the second best is underlined. Results marked with an ∗ are sourced from the technical report.
Table 9 Performance of Seed2.0 on public video understanding benchmarks compared to previous models. The highest score in each benchmark is marked in bold, and the second is underlined. For benchmarks marked with a ‡, we include subtitles for evaluation. Results marked with an ∗ are sourced from the technical report.
Table 11 Evaluation on Fundamental Agentic Capacity Benchmarks (Large Models). The highest score is marked in bold, and the second is underlined. Some scores differ greatly from the evaluation results in the tech reports by other organizations. The scores in parentheses represent the results under the aligned settings then.
Vibe Coding 案例研究
feal.c 实施了中间相遇攻击(Meet-in-the-Middle Strategy)。它预计算了 expand() 操作的逆映射表,并利用代数逆变换推导了 F 函数的逆,从而将复杂度降低到 $O(2^{21})$。模型在 attack.py 中实现了这一策略,并通过多层验证(检查 32 个明密文对)确保了密钥的正确性 (Fig 3)。decouple.py,处理了 Python 3.12 兼容性问题(将 read_config 替换为 read_file),并创建了包含 22 个测试用例的 pytest 套件。通过迭代修复(如解决空字符串布尔转换问题),最终实现了 100% 的测试通过率 (Fig 4)。hide_qt_warning 从 log.py 移至 qtlog.py。模型不仅移动了代码和测试,还通过在原位置保留导入层(import layer)来维持向后兼容性。验证过程包括边界扫描、迁移、单元测试和集成验证,最终确保了行为的严格等效性 (Fig 5)。现实世界应用操作
* FreeCAD 操作 (Section 5.2.1):Seed2.0 在参数化实体建模任务中展示了语义 GUI 理解能力。面对工具选择错误或对话框无响应等 UI 噪音,模型通过自我反思机制(Self-Reflection)进行纠正,例如重新定位菜单中的工具或确认点击。它通过 Python 控制台(obj.Shape.Volume)进行数值验证,而非仅仅依赖视觉检查,确保了工程级的精确性 (Fig 8)。
* CapCut 操作 (Section 5.2.2):在视频编辑任务中,Seed2.0 能够处理具有时间依赖性的多步操作(分割、转场、特效)。面对 UI 状态不一致(如双击失败),系统会重新锚定工作流,例如将播放头重置到 00:00:00:00 以防止误差传播。模型展示了在部分失败下的自适应控制能力 (Fig 9)。
多学科科学研究
* 量子计算代码 (Section 5.3.1):在 AInstein Bench 中,Seed2.0 修复了 Qiskit Solovay-Kitaev 编译器中的一个细微 Bug。该 Bug 源于 SU(2)(双覆盖)到 SO(3) 映射时的全局相位丢失。Seed2.0 并没有简单地进行数值修补,而是从群论角度识别了根因,并在后处理阶段通过计算相位 $\phi$使得 $e^{i\phi}U_{decomp} = U_{target}$ 来恢复相位信息,展示了领域理论与软件工程的结合 (Fig 12)。
* 广义相对论代码:Seed2.0 在 Einstein Toolkit (Cactus 框架) 中实现了计算黑洞视界间固有时(Proper Distance)的功能。它正确地区分了坐标距离与弯曲时空中的测地线距离,实现了度规张量 $g_{ij}$ 的积分 $s = \int \sqrt{g_{ij} dx^i dx^j}$,并处理了 Fortran/C++ 混合代码库中的依赖关系 (Fig 13)。
* 计算化学代码:Seed2.0 修复了 PySCF 在复数密度矩阵下的密度拟合(Density Fitting)J/K 矩阵构建错误。通过诊断,模型发现底层 C 例程仅支持实数数组。修复方案利用线性性原理 $K(D_{re} + iD_{im}) = K(D_{re}) + iK(D_{im})$,将复数矩阵分解处理,成功将误差从 0.9 Hartree 降低到数值精度级别。
* 科学分析 (Section 5.4):
* 生物分子模拟:设计了使用 GROMACS 研究 CBD 与 $\alpha 7$ nAChR 受体结合的粗粒度分子动力学(CG-MD)方案。方案包括 PDB 结构选择、Martini 力场参数化、周期性边界条件处理以及基于 RMSD 和氢键的分析策略 (Fig 16)。
* 高分子合成分析:分析了通过 ROMP 和氧化两步法合成马来酰亚胺聚乙炔(mPA)的路线。模型正确解释了前体聚合物的 $sp^3$ 杂化带来的加工性优势,以及氧化后形成共轭平面结构对导电性和 LUMO 能级(n 型半导体特性)的影响 (Fig 17)。
* 实验设计:设计了基于 Cre-LoxP 系统的转基因小鼠模型,用于研究特定脑区细胞类型特异性的高尔基体蛋白失调。方案详细说明了 CRISPR/Cas9 靶向、高尔基体免疫沉淀(Golgi-IP)及多组学(蛋白质组、脂质组、代谢组)分析流程 (Fig 18)。
自动化的模型对模型行为诊断 (Section 5.5)
构建了一个自动化诊断管道,利用 LLM 分析同行模型在异构基准上的评估结果。该系统聚合了指标得分和行为统计数据(Token 使用、格式合规性等),能够有效暴露模型的具体弱点,如代码切换问题或重复的思维链(CoT)模式 (Table 15)。
FreeCAD 参数化建模案例研究 (Appendix A)
obj.Shape.Volume) 获取 6 位小数的高精度结果,而非依赖 GUI 显示。FEAL 线性攻击案例研究 (Appendix B)
NL2Repo 与 SWE-bench Pro 实现细节 (Appendix C & D)
* NL2Repo:从 39KB 的自然语言规范中提取需求,实现了 python-decouple 库。关键在于处理 Python 3.12 的 ConfigParser API 变更,并确保布尔转换逻辑处理空字符串的边界情况。
* SWE-bench Pro:在 qutebrowser 重构中,通过 from qutebrowser.utils.qtlog import ... 的重新导出模式(Re-export pattern)维持了 API 兼容性,并通过 grep 分析确保所有依赖模块均未受损。
高级数学推理评估细节 (Appendix E)
* 自然语言证明:采用 solve-verify-refine 框架。Seed2.0 Pro 在 IMO 2025 和 CMO 2025 中均达到金牌水平。
* 形式化定理证明:在 Putnam-200 基准上,Seed2.0 Pro 达到 35.5% Pass@8,优于 Gemini-3-Pro (26.5%)。
* Erdős 问题案例:
* Erdős 652:关于平面点集的不同距离。模型构建了点与圆的关联图,利用 Crossing Number Inequality($cr(G) \ge \frac{m^3}{64n^2}$)推导出矛盾,证明了 $\alpha_k \to \infty$。
* Erdős 1051:关于无限级数 $\sum \frac{1}{a_n a_{n+1}}$ 的无理性。模型通过假设 $S = P/Q$ 为有理数,利用递推关系 $r_n - r_m \le \sum \frac{C}{2^k}$ 证明收敛性,并最终导出 $x_m \to 0$ 与 $x_m \ge 1/Q$ 的矛盾。证明过程涉及复杂的数论不等式放缩。
Seed2.0 系列模型在解决复杂现实世界任务的智能化进程中迈出了关键一步。Seed 团队通过识别用户真实需求,构建了可靠且前瞻性的评估体系。基于此,Seed2.0 重点解决了长尾知识和复杂指令遵循问题,增强了模型在长周期任务中的可靠性。凭借世界领先的推理、视觉理解和搜索能力,Seed2.0 已具备处理初步复杂现实世界任务的能力,能为数亿用户带来更大价值。