作者/机构: NVIDIA Corporation
本文档介绍了 NVIDIA DGX B300 系统,旨在为企业应对 AI 推理时代和数据中心向 AI 工厂演进的双重变革。
核心问题: 随着 AI 模型进入能够执行复杂、多步思考的“AI 推理”时代,以及数据中心演变为大规模制造智能的“AI 工厂”,企业面临着严峻挑战。这些挑战包括:对计算、内存和带宽的巨大需求;构建和运营 AI 工厂的复杂性;以及在专业知识、系统集成和能源成本方面的关键差距。许多企业缺乏高效、弹性地运行这一复杂新生态系统所需的专业团队和工具。
研究目标: 本文介绍的 DGX B300 旨在成为 AI 时代的基础构建模块,赋能企业先驱构建自己的 AI 工厂,以应对 AI 推理的严苛要求。其目标是提供一个全栈解决方案,简化 AI 运营的复杂性,帮助企业掌握生成式 AI,并释放其投资回报。
创新点:
为现代数据中心设计的蓝图。DGX B300 旨在成为现代 AI 工厂的蓝图。其设计起点是一个经过重新设计的、符合开放计算项目(OCP)标准的机箱,这一设计将超大规模数据中心的设计原则带到了任何类型的数据中心。DGX B300 首次实现了可以采用兼容 NVIDIA MGX 的机箱或更传统的交流电源设计进行部署,从而确保了它可以在任何基础设施环境中使用。通过将这种前沿设计与实用的可维护性相结合,DGX B300 使得企业能够以前所未有的效率和选择,按照自己的方式构建 AI 工厂。
AI 工厂的基础构建模块。DGX B300 被精心设计为 AI 工厂的基础构建模块。它使得各种规模的 AI 创新者能够大规模地生产智能,并利用那些以往仅为全球性 AI 组织所保留的生成式 AI 能力。
全集成系统与性能。作为一个由 NVIDIA Blackwell Ultra GPU、NVIDIA® ConnectX®-8 网络和 NVIDIA Mission Control 软件驱动的全集成系统,DGX B300 提供了前所未有的性能和超大规模级别的效率。
兼顾训练与推理。通过将卓越的训练性能与领先的实时推理能力相结合,DGX B300 使每个组织都能为 AI 推理时代构建可扩展的基础设施。
AI 工厂的运营挑战。部署一个 AI 工厂不仅仅是一次基础设施采购,更是一种运营上的承诺。许多开始进行 AI 转型的企业面临着显著的复杂性,这可能导致昂贵的停机时间和较低的利用率,从而直接影响其投资回报(ROI)。NVIDIA Mission Control 正是为了解决这一挑战而设计的。
NVIDIA Mission Control 的解决方案。Mission Control 扮演着一个软件定义的运营团队的角色,通过软件提供了世界级 AI 工厂操作员的技能,以确保企业能够从其投资中获得最大的收益。它自动化了从初始集群启动到日常工作负载管理的全部复杂任务,使得 IT 团队能够以超大规模级别的效率来运行 AI 基础设施。为了保护硬件投资,Mission Control 提供了关键的基础设施弹性,并最大化 AI 工厂的生产力和正常运行时间,从而让开发人员能够减少等待时间,将更多的时间投入到创新工作中。
以下是 NVIDIA DGX B300 系统的详细硬件和软件配置:
网络:
管理网络: 1GbE 板载网卡 (NIC) 带 RJ45 接口;1GbE RJ45 主机基板管理控制器 (BMC)
存储:
机架单元: 10U
DGX B300 在性能上实现了显著提升,具体指标如下:
相对性能提升 (与 DGX B200 比较):
绝对性能指标 (源自规格表):
注:规格表中的具体说明如下:
NVIDIA DGX B300 是专为 AI 推理时代设计的实时 AI 计算引擎,旨在成为企业构建 AI 工厂的核心基础模块。通过深度集成 NVIDIA Blackwell Ultra GPU、高速网络技术和 NVIDIA Mission Control 自动化运营软件,DGX B300 为企业提供了前所未有的性能、能效和简化的管理体验。其设计遵循 OCP 和 NVIDIA MGX 标准,具备高度的灵活性,使企业能够在现有的数据中心环境中轻松部署超大规模的 AI 能力。这最终将帮助企业加速生成式 AI 的应用落地,并最大化其技术投资的回报。