NVIDIA Blackwell

文章标题: NVIDIA Blackwell
作者/机构: NVIDIA

A1 主要贡献

NVIDIA Blackwell 架构为生成式人工智能（Generative AI）和加速计算带来了突破性的进展。该架构旨在推动数据中心进入一个新时代，其核心创新点包括：
* 第二代 Transformer 引擎：结合更快速、更宽的 NVIDIA NVLink® 互连技术，性能相较于上一代架构有数量级的提升。
* NVIDIA 机密计算技术：提升了大规模实时大语言模型（LLM）推理的安全性，且不影响性能。
* 全新解压缩引擎：与 Spark RAPIDS™ 库结合，为数据分析应用提供无与伦比的数据库性能。
NVIDIA Blackwell 的多项进步建立在多代加速计算技术之上，以卓越的性能、效率和规模定义了生成式 AI 的新篇章。

A2 主要产品及性能

NVIDIA GB200 NVL72

NVIDIA GB200 NVL72 是一个通过 NVLink 连接的液冷机架级设计，将 36 个 NVIDIA Grace™ CPU 和 72 个 NVIDIA Blackwell GPU 连接在一起。它如同一个单一的巨型 GPU，旨在为万亿参数级别的大语言模型提供前所未有的计算能力。

核心特性:
* 36 个 NVIDIA Grace CPU
* 72 个 NVIDIA Blackwell GPU
* 高达 17 TB 的 LPDDR5X 内存（带 ECC）
* 支持高达 13.5 TB 的 HBM3E 内存
* 高达 30.5 TB 的快速访问内存
* NVLink 域：130 TB/s 的低延迟 GPU 通信

性能表现:

实时 LLM 推理：GB200 NVL72 引入了支持 FP4 的第二代 Transformer 引擎，通过新一代 Tensor Core 中的微缩放格式（microscaling formats）实现了高精度和高吞吐量。结合 NVLink 和液冷技术，它构建了一个单一的 72-GPU 巨型机架，克服了通信瓶颈。与 HGX H100 相比，在 GPT-MoE-1.8T 模型上的实时推理吞吐量提升了 30 倍。

* 大规模训练：GB200 NVL72 的第二代 Transformer 引擎支持 8 位浮点（FP8）精度，使大规模 LLM 的训练速度提高了 4 倍。此项突破得益于第五代 NVLink（提供 1.8 TB/s 的 GPU 间互连）、InfiniBand 网络和 NVIDIA Magnum IO™ 软件的补充。

* 数据处理：GB200 NVL72 利用高带宽内存性能、NVLink-C2C 和专用解压缩引擎，将关键数据库查询速度与 CPU 相比提高了 18 倍，总拥有成本（TCO）降低了 5 倍。

* 高能效基础设施：采用液冷设计的 GB200 NVL72 机架有助于降低数据中心的碳足迹和能耗。液冷技术提高了计算密度，减少了占地面积，并促进了具有大型 NVLink 域架构的高带宽、低延迟 GPU 通信。与 NVIDIA H100 风冷基础设施相比，GB200 NVL72 在相同功耗下性能提升 25 倍，同时减少了用水量。

能效对比

NVIDIA GB200 NVL4

NVIDIA GB200 NVL4 通过 NVLink 桥接器连接四个 NVIDIA Blackwell GPU，并通过 NVLink-C2C 连接两个 NVIDIA Grace CPU，为融合高性能计算（HPC）和 AI 提供革命性性能。它兼容液冷的 NVIDIA MGX™ 模块化服务器，在科学计算、AI 模型训练和推理方面，性能比上一代提升高达 2 倍。

核心特性:
* 四个 NVIDIA Blackwell GPU
* 两个 NVIDIA Grace CPU
* 32 TB/s 带宽
* 1.8 TB 快速内存
* 高性能计算（HPC）性能代际提升 2 倍

性能表现:

推动科学突破：该平台专为科学计算而设计，拥有 1.8 TB 的一致性内存，可用于实现 AlphaFold 2 的蛋白质结构预测和基于数据驱动的 AI 模型进行高级天气预报等突破。这些进步通过加速药物发现和气候预测的时间线，带来了变革性的投资回报。在科学 AI 应用中，相较于 GH200 CG4，性能提升可达 1.8 倍至 2.3 倍。

* 高性能计算：HPC 正在推动科学计算的进步。从天气预报、能源勘探到计算流体动力学和计算机辅助工程仿真，研究人员正在将传统科学与 AI、机器学习和大数据分析相结合。相较于 GH200 CG4，GB200 NVL4 在多种 HPC 应用中性能提升 1.3 倍至 2.2 倍。

HPC 性能对比

NVIDIA HGX B200

NVIDIA HGX B200 将 NVIDIA Blackwell GPU 与高速互连技术相集成，作为首屈一指的 x86 加速横向扩展平台，旨在处理最苛刻的 AI、数据分析和 HPC 工作负载。

核心特性:
* 八个 NVIDIA Blackwell GPU
* 1.4 TB 的 HBM3E 内存
* 通过 NVIDIA NVSwitch™ 实现 GPU 间 1,800 GB/s 的 NVLink 带宽
* 实时 LLM 推理速度提升 15 倍
* 训练性能提升 3 倍

性能表现:

下一代大语言模型的实时推理：对于像 GPT MoE 1.8T 这样的大型模型，HGX B200 的推理性能比上一代 NVIDIA Hopper™ 提升了高达 15 倍。这得益于第二代 Transformer 引擎、定制的 Blackwell Tensor Core 技术以及 NVIDIA TensorRT™-LLM 和 NVIDIA NeMo™ 框架的创新。

* 新一代训练性能：第二代 Transformer 引擎支持 FP8 及新的精度格式，使 GPT MoE 1.8T 等大型语言模型的训练速度提高了 3 倍。第五代 NVLink（1.8 TB/s GPU 间互连）、NVSwitch 芯片、InfiniBand 网络和 NVIDIA Magnum IO 软件共同确保了其高效的可扩展性。

* 可持续计算：通过采用 HGX 加速计算，数据中心可以实现效率提升。在 LLM 推理性能方面，与 NVIDIA Hopper 一代相比，HGX B200 的能效提高了 12 倍，成本降低了 12 倍。

能耗与总拥有成本降低 12 倍

A3 方法细节：Blackwell 架构的技术突破

AI 超级芯片：NVIDIA Blackwell 架构的 GPU 包含 2080 亿个晶体管，采用定制的台积电 4NP 工艺制造。所有 NVIDIA Blackwell 产品都具有两个通过 10 TB/s 芯片到芯片互连连接的光罩极限（reticle-limited）裸片，形成一个统一的单一 GPU。

第二代 Transformer 引擎：第二代 Transformer 引擎采用定制的 NVIDIA Blackwell Tensor Core 技术，并结合 NVIDIA TensorRT-LLM 和 NeMo 框架的创新，以加速 LLM 和 MoE 模型的推理与训练。

NVLink 和 NVLink Switch：第五代 NVIDIA NVLink 可扩展至 576 个 GPU，为数万亿参数的 AI 模型释放加速性能。NVIDIA NVLink Switch 芯片在一个 72-GPU NVLink 域（NVL72）中实现了 130 TB/s 的 GPU 带宽，并通过 NVIDIA 可扩展分层聚合和规约协议（SHARP）™ 的 FP8 支持，将带宽效率提高了 4 倍。

RAS 引擎：NVIDIA Blackwell 增加了一个专用的可靠性、可用性和可服务性（RAS）引擎，以实现智能弹性。该引擎能够及早识别可能发生的潜在故障，从而最大限度地减少停机时间。NVIDIA 的 AI 驱动的预测性管理功能会持续监控硬件和软件中的数千个数据点，以评估整体健康状况，从而预测并拦截导致停机和效率低下的根源。

安全 AI：NVIDIA Blackwell 包含了 NVIDIA 机密计算技术，通过强大的基于硬件的安全性，保护敏感数据和 AI 模型免遭未经授权的访问。Blackwell 是业界首款支持 TEE-I/O 的 GPU，同时通过支持 TEE-I/O 的主机和 NVIDIA NVLink 上的内联保护，提供了性能最高的机密计算解决方案。

解压缩引擎：NVIDIA Blackwell 的解压缩引擎以及通过高速链路（900 GB/s 双向带宽）访问 NVIDIA Grace CPU 中海量内存的能力，加速了数据库查询的整个流程。它支持 LZ4、Snappy 和 Deflate 等最新的压缩格式，为数据分析和数据科学提供了最高性能。

A4 软件与平台生态系统

自动化核心任务：NVIDIA Mission Control™ 驱动着 NVIDIA GB200 NVL72 AI 工厂运营的各个方面，从在 72-GPU NVLink 域内协调工作负载到与设施集成。它为推理和训练带来了即时的敏捷性，同时为基础设施的弹性提供了全栈智能。Mission Control 使每个企业都能以超大规模的效率运行 AI，加速 AI 实验。

企业级 AI 平台：NVIDIA AI Enterprise 是一个端到端的软件平台，它使每个企业都能应用生成式 AI，为生成式 AI 基础模型提供最快、最高效的运行时。它包括 NVIDIA NIM™ 推理微服务、AI 框架、库和工具，这些都经过认证，可在通用数据中心平台和集成了 NVIDIA GPU 的主流 NVIDIA 认证系统上运行。作为 NVIDIA AI Enterprise 的一部分，NVIDIA NIM™ 是一套易于使用的推理微服务，可加速在任何云或数据中心部署基础模型，并帮助确保数据安全。依靠 AI 运营业务的企业依赖 NVIDIA AI Enterprise 提供的安全性、支持、可管理性和稳定性，以确保从试点到生产的平稳过渡。与 NVIDIA Blackwell GPU 结合，NVIDIA AI Enterprise 不仅简化了 AI 就绪平台的构建，还加速了价值实现的时间。

NVIDIA Blackwell

A1 主要贡献

A2 主要产品及性能

NVIDIA GB200 NVL72

NVIDIA GB200 NVL4

NVIDIA HGX B200

A3 方法细节：Blackwell 架构的技术突破

A4 软件与平台生态系统

A5 附录：技术规格