NVIDIA DGX B300

作者/机构: NVIDIA Corporation

A1 主要贡献

本文档介绍了 NVIDIA DGX B300 系统,旨在为企业应对 AI 推理时代和数据中心向 AI 工厂演进的双重变革。

A3 设计原则

为现代数据中心设计的蓝图。DGX B300 旨在成为现代 AI 工厂的蓝图。其设计起点是一个经过重新设计的、符合开放计算项目(OCP)标准的机箱,这一设计将超大规模数据中心的设计原则带到了任何类型的数据中心。DGX B300 首次实现了可以采用兼容 NVIDIA MGX 的机箱或更传统的交流电源设计进行部署,从而确保了它可以在任何基础设施环境中使用。通过将这种前沿设计与实用的可维护性相结合,DGX B300 使得企业能够以前所未有的效率和选择,按照自己的方式构建 AI 工厂。

A2 方法细节

AI 工厂的基础构建模块。DGX B300 被精心设计为 AI 工厂的基础构建模块。它使得各种规模的 AI 创新者能够大规模地生产智能,并利用那些以往仅为全球性 AI 组织所保留的生成式 AI 能力。

NVIDIA DGX B300 产品图
NVIDIA DGX B300 产品图

全集成系统与性能。作为一个由 NVIDIA Blackwell Ultra GPU、NVIDIA® ConnectX®-8 网络和 NVIDIA Mission Control 软件驱动的全集成系统,DGX B300 提供了前所未有的性能和超大规模级别的效率。

兼顾训练与推理。通过将卓越的训练性能与领先的实时推理能力相结合,DGX B300 使每个组织都能为 AI 推理时代构建可扩展的基础设施。

关键特性

A7 补充细节:通过 NVIDIA Mission Control 运行模型并自动化核心任务

AI 工厂的运营挑战。部署一个 AI 工厂不仅仅是一次基础设施采购,更是一种运营上的承诺。许多开始进行 AI 转型的企业面临着显著的复杂性,这可能导致昂贵的停机时间和较低的利用率,从而直接影响其投资回报(ROI)。NVIDIA Mission Control 正是为了解决这一挑战而设计的。

NVIDIA Mission Control 的解决方案。Mission Control 扮演着一个软件定义的运营团队的角色,通过软件提供了世界级 AI 工厂操作员的技能,以确保企业能够从其投资中获得最大的收益。它自动化了从初始集群启动到日常工作负载管理的全部复杂任务,使得 IT 团队能够以超大规模级别的效率来运行 AI 基础设施。为了保护硬件投资,Mission Control 提供了关键的基础设施弹性,并最大化 AI 工厂的生产力和正常运行时间,从而让开发人员能够减少等待时间,将更多的时间投入到创新工作中。

NVIDIA Mission Control 功能架构图
NVIDIA Mission Control 功能架构图

A4 实验环境

以下是 NVIDIA DGX B300 系统的详细硬件和软件配置:

硬件配置

软件配置

A4 实验结果

DGX B300 在性能上实现了显著提升,具体指标如下:

注:规格表中的具体说明如下:

DGX B300 详细规格表
DGX B300 详细规格表

A5 结论

NVIDIA DGX B300 是专为 AI 推理时代设计的实时 AI 计算引擎,旨在成为企业构建 AI 工厂的核心基础模块。通过深度集成 NVIDIA Blackwell Ultra GPU、高速网络技术和 NVIDIA Mission Control 自动化运营软件,DGX B300 为企业提供了前所未有的性能、能效和简化的管理体验。其设计遵循 OCP 和 NVIDIA MGX 标准,具备高度的灵活性,使企业能够在现有的数据中心环境中轻松部署超大规模的 AI 能力。这最终将帮助企业加速生成式 AI 的应用落地,并最大化其技术投资的回报。