文章标题: NVIDIA Blackwell
作者/机构: NVIDIA
NVIDIA Blackwell 架构为生成式人工智能(Generative AI)和加速计算带来了突破性的进展。该架构旨在推动数据中心进入一个新时代,其核心创新点包括:
* 第二代 Transformer 引擎:结合更快速、更宽的 NVIDIA NVLink® 互连技术,性能相较于上一代架构有数量级的提升。
* NVIDIA 机密计算技术:提升了大规模实时大语言模型(LLM)推理的安全性,且不影响性能。
* 全新解压缩引擎:与 Spark RAPIDS™ 库结合,为数据分析应用提供无与伦比的数据库性能。
NVIDIA Blackwell 的多项进步建立在多代加速计算技术之上,以卓越的性能、效率和规模定义了生成式 AI 的新篇章。
NVIDIA GB200 NVL72 是一个通过 NVLink 连接的液冷机架级设计,将 36 个 NVIDIA Grace™ CPU 和 72 个 NVIDIA Blackwell GPU 连接在一起。它如同一个单一的巨型 GPU,旨在为万亿参数级别的大语言模型提供前所未有的计算能力。
核心特性:
* 36 个 NVIDIA Grace CPU
* 72 个 NVIDIA Blackwell GPU
* 高达 17 TB 的 LPDDR5X 内存(带 ECC)
* 支持高达 13.5 TB 的 HBM3E 内存
* 高达 30.5 TB 的快速访问内存
* NVLink 域:130 TB/s 的低延迟 GPU 通信
性能表现:
实时 LLM 推理:GB200 NVL72 引入了支持 FP4 的第二代 Transformer 引擎,通过新一代 Tensor Core 中的微缩放格式(microscaling formats)实现了高精度和高吞吐量。结合 NVLink 和液冷技术,它构建了一个单一的 72-GPU 巨型机架,克服了通信瓶颈。与 HGX H100 相比,在 GPT-MoE-1.8T 模型上的实时推理吞吐量提升了 30 倍。
* 大规模训练:GB200 NVL72 的第二代 Transformer 引擎支持 8 位浮点(FP8)精度,使大规模 LLM 的训练速度提高了 4 倍。此项突破得益于第五代 NVLink(提供 1.8 TB/s 的 GPU 间互连)、InfiniBand 网络和 NVIDIA Magnum IO™ 软件的补充。
* 数据处理:GB200 NVL72 利用高带宽内存性能、NVLink-C2C 和专用解压缩引擎,将关键数据库查询速度与 CPU 相比提高了 18 倍,总拥有成本(TCO)降低了 5 倍。
* 高能效基础设施:采用液冷设计的 GB200 NVL72 机架有助于降低数据中心的碳足迹和能耗。液冷技术提高了计算密度,减少了占地面积,并促进了具有大型 NVLink 域架构的高带宽、低延迟 GPU 通信。与 NVIDIA H100 风冷基础设施相比,GB200 NVL72 在相同功耗下性能提升 25 倍,同时减少了用水量。
NVIDIA GB200 NVL4 通过 NVLink 桥接器连接四个 NVIDIA Blackwell GPU,并通过 NVLink-C2C 连接两个 NVIDIA Grace CPU,为融合高性能计算(HPC)和 AI 提供革命性性能。它兼容液冷的 NVIDIA MGX™ 模块化服务器,在科学计算、AI 模型训练和推理方面,性能比上一代提升高达 2 倍。
核心特性:
* 四个 NVIDIA Blackwell GPU
* 两个 NVIDIA Grace CPU
* 32 TB/s 带宽
* 1.8 TB 快速内存
* 高性能计算(HPC)性能代际提升 2 倍
性能表现:
推动科学突破:该平台专为科学计算而设计,拥有 1.8 TB 的一致性内存,可用于实现 AlphaFold 2 的蛋白质结构预测和基于数据驱动的 AI 模型进行高级天气预报等突破。这些进步通过加速药物发现和气候预测的时间线,带来了变革性的投资回报。在科学 AI 应用中,相较于 GH200 CG4,性能提升可达 1.8 倍至 2.3 倍。
* 高性能计算:HPC 正在推动科学计算的进步。从天气预报、能源勘探到计算流体动力学和计算机辅助工程仿真,研究人员正在将传统科学与 AI、机器学习和大数据分析相结合。相较于 GH200 CG4,GB200 NVL4 在多种 HPC 应用中性能提升 1.3 倍至 2.2 倍。
NVIDIA HGX B200 将 NVIDIA Blackwell GPU 与高速互连技术相集成,作为首屈一指的 x86 加速横向扩展平台,旨在处理最苛刻的 AI、数据分析和 HPC 工作负载。
核心特性:
* 八个 NVIDIA Blackwell GPU
* 1.4 TB 的 HBM3E 内存
* 通过 NVIDIA NVSwitch™ 实现 GPU 间 1,800 GB/s 的 NVLink 带宽
* 实时 LLM 推理速度提升 15 倍
* 训练性能提升 3 倍
性能表现:
下一代大语言模型的实时推理:对于像 GPT MoE 1.8T 这样的大型模型,HGX B200 的推理性能比上一代 NVIDIA Hopper™ 提升了高达 15 倍。这得益于第二代 Transformer 引擎、定制的 Blackwell Tensor Core 技术以及 NVIDIA TensorRT™-LLM 和 NVIDIA NeMo™ 框架的创新。
* 新一代训练性能:第二代 Transformer 引擎支持 FP8 及新的精度格式,使 GPT MoE 1.8T 等大型语言模型的训练速度提高了 3 倍。第五代 NVLink(1.8 TB/s GPU 间互连)、NVSwitch 芯片、InfiniBand 网络和 NVIDIA Magnum IO 软件共同确保了其高效的可扩展性。
* 可持续计算:通过采用 HGX 加速计算,数据中心可以实现效率提升。在 LLM 推理性能方面,与 NVIDIA Hopper 一代相比,HGX B200 的能效提高了 12 倍,成本降低了 12 倍。
AI 超级芯片:NVIDIA Blackwell 架构的 GPU 包含 2080 亿个晶体管,采用定制的台积电 4NP 工艺制造。所有 NVIDIA Blackwell 产品都具有两个通过 10 TB/s 芯片到芯片互连连接的光罩极限(reticle-limited)裸片,形成一个统一的单一 GPU。
第二代 Transformer 引擎:第二代 Transformer 引擎采用定制的 NVIDIA Blackwell Tensor Core 技术,并结合 NVIDIA TensorRT-LLM 和 NeMo 框架的创新,以加速 LLM 和 MoE 模型的推理与训练。
NVLink 和 NVLink Switch:第五代 NVIDIA NVLink 可扩展至 576 个 GPU,为数万亿参数的 AI 模型释放加速性能。NVIDIA NVLink Switch 芯片在一个 72-GPU NVLink 域(NVL72)中实现了 130 TB/s 的 GPU 带宽,并通过 NVIDIA 可扩展分层聚合和规约协议(SHARP)™ 的 FP8 支持,将带宽效率提高了 4 倍。
RAS 引擎:NVIDIA Blackwell 增加了一个专用的可靠性、可用性和可服务性(RAS)引擎,以实现智能弹性。该引擎能够及早识别可能发生的潜在故障,从而最大限度地减少停机时间。NVIDIA 的 AI 驱动的预测性管理功能会持续监控硬件和软件中的数千个数据点,以评估整体健康状况,从而预测并拦截导致停机和效率低下的根源。
安全 AI:NVIDIA Blackwell 包含了 NVIDIA 机密计算技术,通过强大的基于硬件的安全性,保护敏感数据和 AI 模型免遭未经授权的访问。Blackwell 是业界首款支持 TEE-I/O 的 GPU,同时通过支持 TEE-I/O 的主机和 NVIDIA NVLink 上的内联保护,提供了性能最高的机密计算解决方案。
解压缩引擎:NVIDIA Blackwell 的解压缩引擎以及通过高速链路(900 GB/s 双向带宽)访问 NVIDIA Grace CPU 中海量内存的能力,加速了数据库查询的整个流程。它支持 LZ4、Snappy 和 Deflate 等最新的压缩格式,为数据分析和数据科学提供了最高性能。
自动化核心任务:NVIDIA Mission Control™ 驱动着 NVIDIA GB200 NVL72 AI 工厂运营的各个方面,从在 72-GPU NVLink 域内协调工作负载到与设施集成。它为推理和训练带来了即时的敏捷性,同时为基础设施的弹性提供了全栈智能。Mission Control 使每个企业都能以超大规模的效率运行 AI,加速 AI 实验。
企业级 AI 平台:NVIDIA AI Enterprise 是一个端到端的软件平台,它使每个企业都能应用生成式 AI,为生成式 AI 基础模型提供最快、最高效的运行时。它包括 NVIDIA NIM™ 推理微服务、AI 框架、库和工具,这些都经过认证,可在通用数据中心平台和集成了 NVIDIA GPU 的主流 NVIDIA 认证系统上运行。作为 NVIDIA AI Enterprise 的一部分,NVIDIA NIM™ 是一套易于使用的推理微服务,可加速在任何云或数据中心部署基础模型,并帮助确保数据安全。依靠 AI 运营业务的企业依赖 NVIDIA AI Enterprise 提供的安全性、支持、可管理性和稳定性,以确保从试点到生产的平稳过渡。与 NVIDIA Blackwell GPU 结合,NVIDIA AI Enterprise 不仅简化了 AI 就绪平台的构建,还加速了价值实现的时间。