NVIDIA Blackwell

文章标题: NVIDIA Blackwell
作者/机构: NVIDIA

A1 主要贡献

NVIDIA Blackwell 架构为生成式人工智能(Generative AI)和加速计算带来了突破性的进展。该架构旨在推动数据中心进入一个新时代,其核心创新点包括:
* 第二代 Transformer 引擎:结合更快速、更宽的 NVIDIA NVLink® 互连技术,性能相较于上一代架构有数量级的提升。
* NVIDIA 机密计算技术:提升了大规模实时大语言模型(LLM)推理的安全性,且不影响性能。
* 全新解压缩引擎:与 Spark RAPIDS™ 库结合,为数据分析应用提供无与伦比的数据库性能。
NVIDIA Blackwell 的多项进步建立在多代加速计算技术之上,以卓越的性能、效率和规模定义了生成式 AI 的新篇章。

A2 主要产品及性能

NVIDIA GB200 NVL72

NVIDIA GB200 NVL72 是一个通过 NVLink 连接的液冷机架级设计,将 36 个 NVIDIA Grace™ CPU 和 72 个 NVIDIA Blackwell GPU 连接在一起。它如同一个单一的巨型 GPU,旨在为万亿参数级别的大语言模型提供前所未有的计算能力。

核心特性:
* 36 个 NVIDIA Grace CPU
* 72 个 NVIDIA Blackwell GPU
* 高达 17 TB 的 LPDDR5X 内存(带 ECC)
* 支持高达 13.5 TB 的 HBM3E 内存
* 高达 30.5 TB 的快速访问内存
* NVLink 域:130 TB/s 的低延迟 GPU 通信

性能表现:

NVIDIA GB200 NVL4

NVIDIA GB200 NVL4 通过 NVLink 桥接器连接四个 NVIDIA Blackwell GPU,并通过 NVLink-C2C 连接两个 NVIDIA Grace CPU,为融合高性能计算(HPC)和 AI 提供革命性性能。它兼容液冷的 NVIDIA MGX™ 模块化服务器,在科学计算、AI 模型训练和推理方面,性能比上一代提升高达 2 倍。

核心特性:
* 四个 NVIDIA Blackwell GPU
* 两个 NVIDIA Grace CPU
* 32 TB/s 带宽
* 1.8 TB 快速内存
* 高性能计算(HPC)性能代际提升 2 倍

性能表现:

NVIDIA HGX B200

NVIDIA HGX B200 将 NVIDIA Blackwell GPU 与高速互连技术相集成,作为首屈一指的 x86 加速横向扩展平台,旨在处理最苛刻的 AI、数据分析和 HPC 工作负载。

核心特性:
* 八个 NVIDIA Blackwell GPU
* 1.4 TB 的 HBM3E 内存
* 通过 NVIDIA NVSwitch™ 实现 GPU 间 1,800 GB/s 的 NVLink 带宽
* 实时 LLM 推理速度提升 15 倍
* 训练性能提升 3 倍

性能表现:

A3 方法细节:Blackwell 架构的技术突破

AI 超级芯片:NVIDIA Blackwell 架构的 GPU 包含 2080 亿个晶体管,采用定制的台积电 4NP 工艺制造。所有 NVIDIA Blackwell 产品都具有两个通过 10 TB/s 芯片到芯片互连连接的光罩极限(reticle-limited)裸片,形成一个统一的单一 GPU。

第二代 Transformer 引擎:第二代 Transformer 引擎采用定制的 NVIDIA Blackwell Tensor Core 技术,并结合 NVIDIA TensorRT-LLM 和 NeMo 框架的创新,以加速 LLM 和 MoE 模型的推理与训练。

NVLink 和 NVLink Switch:第五代 NVIDIA NVLink 可扩展至 576 个 GPU,为数万亿参数的 AI 模型释放加速性能。NVIDIA NVLink Switch 芯片在一个 72-GPU NVLink 域(NVL72)中实现了 130 TB/s 的 GPU 带宽,并通过 NVIDIA 可扩展分层聚合和规约协议(SHARP)™ 的 FP8 支持,将带宽效率提高了 4 倍。

RAS 引擎:NVIDIA Blackwell 增加了一个专用的可靠性、可用性和可服务性(RAS)引擎,以实现智能弹性。该引擎能够及早识别可能发生的潜在故障,从而最大限度地减少停机时间。NVIDIA 的 AI 驱动的预测性管理功能会持续监控硬件和软件中的数千个数据点,以评估整体健康状况,从而预测并拦截导致停机和效率低下的根源。

安全 AI:NVIDIA Blackwell 包含了 NVIDIA 机密计算技术,通过强大的基于硬件的安全性,保护敏感数据和 AI 模型免遭未经授权的访问。Blackwell 是业界首款支持 TEE-I/O 的 GPU,同时通过支持 TEE-I/O 的主机和 NVIDIA NVLink 上的内联保护,提供了性能最高的机密计算解决方案。

解压缩引擎:NVIDIA Blackwell 的解压缩引擎以及通过高速链路(900 GB/s 双向带宽)访问 NVIDIA Grace CPU 中海量内存的能力,加速了数据库查询的整个流程。它支持 LZ4、Snappy 和 Deflate 等最新的压缩格式,为数据分析和数据科学提供了最高性能。

A4 软件与平台生态系统

自动化核心任务:NVIDIA Mission Control™ 驱动着 NVIDIA GB200 NVL72 AI 工厂运营的各个方面,从在 72-GPU NVLink 域内协调工作负载到与设施集成。它为推理和训练带来了即时的敏捷性,同时为基础设施的弹性提供了全栈智能。Mission Control 使每个企业都能以超大规模的效率运行 AI,加速 AI 实验。

企业级 AI 平台:NVIDIA AI Enterprise 是一个端到端的软件平台,它使每个企业都能应用生成式 AI,为生成式 AI 基础模型提供最快、最高效的运行时。它包括 NVIDIA NIM™ 推理微服务、AI 框架、库和工具,这些都经过认证,可在通用数据中心平台和集成了 NVIDIA GPU 的主流 NVIDIA 认证系统上运行。作为 NVIDIA AI Enterprise 的一部分,NVIDIA NIM™ 是一套易于使用的推理微服务,可加速在任何云或数据中心部署基础模型,并帮助确保数据安全。依靠 AI 运营业务的企业依赖 NVIDIA AI Enterprise 提供的安全性、支持、可管理性和稳定性,以确保从试点到生产的平稳过渡。与 NVIDIA Blackwell GPU 结合,NVIDIA AI Enterprise 不仅简化了 AI 就绪平台的构建,还加速了价值实现的时间。

A5 附录:技术规格