NVIDIA DGX B300
NVIDIA DGX B300
作者/机构: NVIDIA Corporation
A1 主要贡献
本文档介绍了 NVIDIA DGX B300 系统,旨在为企业应对 AI 推理时代和数据中心向 AI 工厂演进的双重变革。
-
核心问题: 随着 AI 模型进入能够执行复杂、多步思考的“AI 推理”时代,以及数据中心演变为大规模制造智能的“AI 工厂”,企业面临着严峻挑战。这些挑战包括:对计算、内存和带宽的巨大需求;构建和运营 AI 工厂的复杂性;以及在专业知识、系统集成和能源成本方面的关键差距。许多企业缺乏高效、弹性地运行这一复杂新生态系统所需的专业团队和工具。
-
研究目标: 本文介绍的 DGX B300 旨在成为 AI 时代的基础构建模块,赋能企业先驱构建自己的 AI 工厂,以应对 AI 推理的严苛要求。其目标是提供一个全栈解决方案,简化 AI 运营的复杂性,帮助企业掌握生成式 AI,并释放其投资回报。
-
创新点:
- 卓越的性能: DGX B300 基于 NVIDIA Blackwell Ultra 架构,是一个专为 AI 设计的计算引擎。与 DGX B200 相比,它提供了 1.5 倍的密集 FP4 性能和 2 倍的 Attention 性能。
- 企业级尺寸的超大规模性能: DGX B300 将超大规模的性能集成在一个企业级尺寸的机箱内,使各种规模的 AI 创新者都能大规模地制造智能。
- 灵活的物理集成: 系统采用了重新设计的、兼容 NVIDIA MGX™ 的风冷机箱,符合开放计算项目(OCP)标准,可以无缝集成到现代数据中心中。
- 简化的运营管理: 配合 NVIDIA Mission Control 软件,DGX B300 能够自动化从集群启动到日常工作负载管理的复杂任务,将 AI 基础设施的运营简化,实现超大规模级别的效率。
- 全栈集成系统: DGX B300 是一个完全集成的系统,整合了 NVIDIA Blackwell Ultra GPU、NVIDIA® ConnectX®-8 网络和 NVIDIA Mission Control 软件,提供卓越的训练性能和领先的实时推理能力。
A3 设计原则
为现代数据中心设计的蓝图。DGX B300 旨在成为现代 AI 工厂的蓝图。其设计起点是一个经过重新设计的、符合开放计算项目(OCP)标准的机箱,这一设计将超大规模数据中心的设计原则带到了任何类型的数据中心。DGX B300 首次实现了可以采用兼容 NVIDIA MGX 的机箱或更传统的交流电源设计进行部署,从而确保了它可以在任何基础设施环境中使用。通过将这种前沿设计与实用的可维护性相结合,DGX B300 使得企业能够以前所未有的效率和选择,按照自己的方式构建 AI 工厂。
A2 方法细节
AI 工厂的基础构建模块。DGX B300 被精心设计为 AI 工厂的基础构建模块。它使得各种规模的 AI 创新者能够大规模地生产智能,并利用那些以往仅为全球性 AI 组织所保留的生成式 AI 能力。
全集成系统与性能。作为一个由 NVIDIA Blackwell Ultra GPU、NVIDIA® ConnectX®-8 网络和 NVIDIA Mission Control 软件驱动的全集成系统,DGX B300 提供了前所未有的性能和超大规模级别的效率。
兼顾训练与推理。通过将卓越的训练性能与领先的实时推理能力相结合,DGX B300 使每个组织都能为 AI 推理时代构建可扩展的基础设施。
关键特性
- 核心硬件: 内置 8 颗 NVIDIA Blackwell Ultra SXM GPU。
- GPU 内存: 提供 2.1 TB 的 GPU 内存空间。
- 训练性能: 达到 72 petaFLOPS 的训练性能。
- 推理性能: 达到 144 petaFLOPS 的推理性能。
- 网络: 采用 NVIDIA 网络技术。
- 处理器: 配备 Intel Xeon 6776P 处理器。
- 扩展基础: 作为 NVIDIA DGX BasePOD™ 和 NVIDIA DGX SuperPOD™ 的基础。
- 软件生态: 利用 NVIDIA AI Enterprise 和 NVIDIA Mission Control™ 软件。
A7 补充细节:通过 NVIDIA Mission Control 运行模型并自动化核心任务
AI 工厂的运营挑战。部署一个 AI 工厂不仅仅是一次基础设施采购,更是一种运营上的承诺。许多开始进行 AI 转型的企业面临着显著的复杂性,这可能导致昂贵的停机时间和较低的利用率,从而直接影响其投资回报(ROI)。NVIDIA Mission Control 正是为了解决这一挑战而设计的。
NVIDIA Mission Control 的解决方案。Mission Control 扮演着一个软件定义的运营团队的角色,通过软件提供了世界级 AI 工厂操作员的技能,以确保企业能够从其投资中获得最大的收益。它自动化了从初始集群启动到日常工作负载管理的全部复杂任务,使得 IT 团队能够以超大规模级别的效率来运行 AI 基础设施。为了保护硬件投资,Mission Control 提供了关键的基础设施弹性,并最大化 AI 工厂的生产力和正常运行时间,从而让开发人员能够减少等待时间,将更多的时间投入到创新工作中。
A4 实验环境
以下是 NVIDIA DGX B300 系统的详细硬件和软件配置:
硬件配置
- GPU: 8x NVIDIA Blackwell Ultra SXM
- 总 GPU 内存: 2.1 TB 总量,64 TB/s HBM3e 带宽
- 系统内存: 2 TB,可配置至 4 TB
- NVIDIA NVLink™ 交换系统: 2x
- NVIDIA NVLink 带宽: 14.4 TB/s 聚合带宽
- 系统功耗: 14.5 kW (Busbar),15.1 kW (PSU)
- CPU: Intel Xeon 6776P 处理器
-
网络:
- 8x OSFP 端口,服务于 8x NVIDIA ConnectX-8 VPI,最高支持 800 Gb/s 的 NVIDIA InfiniBand/以太网
- 2x 双端口 QSFP112 NVIDIA BlueField®-3 DPU,最高支持 400 Gb/s 的 NVIDIA InfiniBand/以太网
-
管理网络: 1GbE 板载网卡 (NIC) 带 RJ45 接口;1GbE RJ45 主机基板管理控制器 (BMC)
-
存储:
- 操作系统: 2x 1.9 TB NVMe M.2
- 内部存储: 8x 3.84 TB NVMe E1.S
-
机架单元: 10U
- 运行温度: 10°C–35°C* (带星号表示有条件限制)
- 支持: 三年商业标准硬件和软件支持
软件配置
- AI 软件: NVIDIA AI Enterprise (优化的 AI 软件)
- 管理与编排: NVIDIA Mission Control (AI 数据中心运营和编排,采用 NVIDIA Run:ai 技术)
- 操作系统: NVIDIA DGX OS,支持 Red Hat Enterprise Linux / Rocky / Ubuntu
A4 实验结果
DGX B300 在性能上实现了显著提升,具体指标如下:
-
相对性能提升 (与 DGX B200 比较):
- 密集 FP4 性能: 提升 1.5 倍。
- Attention 性能: 提升 2 倍。
-
绝对性能指标 (源自规格表):
- FP4 Tensor Core*: 144 PFLOPS (稀疏) | 108 PFLOPS (稠密)
- FP8/FP6 Tensor Core**: 72 PFLOPS (带稀疏性)
注:规格表中的具体说明如下:
- * 规格显示为 稀疏 | 稠密。
- ** 显示为带稀疏性。稠密性能为所示稀疏规格的一半。
A5 结论
NVIDIA DGX B300 是专为 AI 推理时代设计的实时 AI 计算引擎,旨在成为企业构建 AI 工厂的核心基础模块。通过深度集成 NVIDIA Blackwell Ultra GPU、高速网络技术和 NVIDIA Mission Control 自动化运营软件,DGX B300 为企业提供了前所未有的性能、能效和简化的管理体验。其设计遵循 OCP 和 NVIDIA MGX 标准,具备高度的灵活性,使企业能够在现有的数据中心环境中轻松部署超大规模的 AI 能力。这最终将帮助企业加速生成式 AI 的应用落地,并最大化其技术投资的回报。
💬 评论讨论
欢迎在这里分享您的想法和见解!