NVIDIA RTX BLACKWELL GPU ARCHITECTURE

A1 主要贡献

NVIDIA RTX Blackwell 架构建立在先前 NVIDIA GPU 引入的基础 AI 技术之上，旨在为下一代 AI 驱动的游戏和专业应用提供支持。Blackwell 架构的目标是让游戏、创意和工程应用在图形真实感、交互性和专业设计能力方面达到新的水平。

随着摩尔定律的终结，GPU 的性能和图像质量通过神经渲染技术持续提升。NVIDIA DLSS 超级分辨率和帧生成技术显著提高了帧率，同时提供了接近原生渲染的图像质量，并以远低于传统渲染的成本生成了绝大多数像素。类似地，DLSS 光线重建（RR）通过先进的 AI 方法去噪和重建缺失的细节，大幅减少了创建高质量光线追踪或路径追踪场景所需投射的光线数量。未来的 AI 技术将继续以更低的计算成本和内存占用增强视觉质量。

Blackwell 架构引入了新的基于 AI 的神经渲染和神经着色技术，这将加速开发者在其应用中对 AI 的使用，包括生成式 AI 渲染和模拟技术的实现与实时应用。生成式 AI 将帮助游戏开发者动态创建多样的地形，实现更真实的物理模拟，并即时生成更复杂的角色行为和背景故事。专业 3D 设计应用可以利用 RTX Blackwell 的生成式 AI 功能，实现对话式工作流，根据指定标准更快地生成多种设计方案，从而更迅速地迭代和微调参数以创造最佳结果。

NVIDIA Blackwell 架构家族以美国数学家和统计学家 David H. Blackwell 的名字命名，以纪念他在概率论、博弈论、统计学和动态规划领域的诸多贡献，包括著名的 Rao-Blackwell 定理。

RTX Blackwell 的设计目标如图1所示，主要包括：
* 为新的神经工作负载进行优化
* 减少内存占用
* 提供新的服务质量能力
* 提升能源效率

图 1. RTX Blackwell 设计目标

NVIDIA RTX Blackwell 架构的关键特性包括：
* 为神经着色构建的新 SM 特性：新的 RT Core 和 Tensor Core 特性增强并加速了神经渲染能力。与 NVIDIA Ada GPU 相比，NVIDIA RTX Blackwell SM 为许多整数数学运算提供了每时钟周期两倍的吞吐量，这可以提升对神经着色至关重要的地址生成工作负载的性能。
* 卓越能效的新 MaxQ 特性：RTX Blackwell 融合了多项新的 MaxQ 电源管理功能。先进的门控电源和新的分离式电源轨为芯片上不同的子系统提供了精细的电源控制和输送。时钟可以比以往的 GPU 架构快 1000 倍地适应动态工作负载。
* 新的第四代 RT Cores：Blackwell 对 RT Core 架构进行了重大改进，实现了新的光线追踪体验和神经渲染技术。
* 新的第五代 Tensor Cores：包括新的 FP4 功能，可将 AI 吞吐量提高一倍，同时将内存需求减半。还支持我们数据中心级 Blackwell GPU 中使用的第二代 FP8 Transformer 引擎。
* NVIDIA DLSS 4：NVIDIA RTX Blackwell 架构采用 AI 多帧生成技术，将 DLSS 4 的帧率提升至 DLSS 3/3.5 的两倍，同时保持或超越原生图像质量，并提供低系统延迟。
* RTX 神经着色器：将小型神经网络引入可编程着色器，开启了图形创新的新时代。
* AI 管理处理器 (AMP)：使语音、翻译、视觉、动画、行为等多个 AI 模型能够与图形工作负载同时共享 GPU。
* GDDR7 内存：GDDR7 是一种新的超低电压 GDDR 内存标准，采用 PAM3（脉冲幅度调制）信令技术，实现了更高速度的内存子系统和能效提升。
* Mega Geometry 技术：一项新的 RTX 技术，旨在显著增加光线追踪应用中可能的几何细节。

首批基于新 RTX Blackwell 架构的 NVIDIA GeForce 显卡包括 GeForce RTX 5090、RTX 5080、RTX 5070 Ti 和 RTX 5070。其中，GeForce RTX 5090 的核心是 GB202 GPU，是 NVIDIA RTX Blackwell 家族中最强大的 GPU。GeForce RTX 5080 基于 GB203 GPU，而 RTX 5070 使用 GB205 GPU。这三款 GPU 均旨在为其所属的 GPU 级别提供卓越性能，并为游戏玩家和创作者/专业用户提供开创性的新 AI 功能。

A3 背景知识

RTX Blackwell 神经渲染架构

NVIDIA 的工程师为每个新的 GPU 架构都设定了明确的设计目标。NVIDIA Turing 架构凭借其革命性的 RT Cores、Tensor Cores 和 DLSS 技术，为图形学的新时代奠定了基础，它结合了可编程着色、实时光线追踪和 AI 算法，为游戏和专业应用提供了逼真且物理精确的图形。NVIDIA Ampere 架构改进了 SM，增强了 RT 和 Tensor Cores，引入了创新的 GDDR6X 内存子系统，提升了 DLSS 能力，并带来了巨大的整体性能增益。NVIDIA Ada GPU 架构则旨在为光线追踪和基于 AI 的神经图形提供更高的性能和视觉保真度，增加了新的 DLSS 帧生成和光线重建功能。NVIDIA Ada 标志着光线追踪和神经图形成为主流的转折点。

解决方案：神经渲染

图 2. 神经渲染时代已经到来 - 每帧的 AI TOPS 显著增加

每帧的 AI TOPS。通过使用神经渲染，图像质量的提升速度已经超过了摩尔定律，并且这类 AI 渲染技术将继续扩展。DLSS 通过以原生渲染一小部分的成本生成绝大多数像素，极大地提高了帧率。DLSS-RR（光线重建）通过大幅减少需要投射和着色的光线数量，实现了使用路径追踪的逼真光照。

DLSS 4 与新神经着色技术。Blackwell 引入了带有“多帧生成”功能的 DLSS 4，进一步提升了游戏性能并降低了延迟。新的神经着色技术，包括 RTX 神经材质、RTX 神经面部、RTX 神经辐射缓存（NRC）以及新的基于 AI 的 Transformer 模型，在计算上更高效，同时能够以更高的图像质量重建图像。如图2所示，使用神经技术的渲染已经达到了一个拐点——神经渲染的时代已经到来。

RTX Blackwell GPU 系列。GB202 是 RTX Blackwell GPU 产品线的旗舰，为 GeForce RTX 5090 显卡提供动力。GB203 GPU 用于 GeForce RTX 5080 显卡，GB205 用于 GeForce RTX 5070。这些 GPU 基于相同的底层架构，并针对不同的使用模型和市场细分进行了配置。以下部分将重点介绍 GB202 GPU 架构，有关 GB203 和 GB205 的规格，请参阅附录 B 和 C。

A2 方法细节

Blackwell GB202 GPU

完整的 GB202 GPU 架构。完整的 GB202 GPU 包含12个图形处理集群（GPC）、96个纹理处理集群（TPC）、192个流式多处理器（SM），以及一个带有16个32位内存控制器的512位内存接口。

图 3. GB202 GPU 框图（完整芯片）。

FP64 核心说明。GB202 GPU 还包括384个 FP64 核心（每个 SM 两个），图中未示出。FP64 的 TFLOP 速率是 FP32 运算 TFLOP 速率的1/64。包含少量 FP64 核心是为了确保任何带有 FP64 代码的程序都能正确运行。同样，也包含了极少量的 FP64 Tensor Cores 以保证程序的正确性。

完整的 GB202 GPU 核心数量。完整的 GB202 GPU 包括：
* 24576 个 CUDA 核心
* 192 个 RT 核心
* 768 个 Tensor 核心
* 768 个纹理单元

图 4. 带有光栅引擎、8个 TPC、16个 SM 和16个 ROP 的 Blackwell GPC。

GPC 结构。GPC 是所有 GB20x Blackwell 系列 GPU 中主要的高级硬件模块，所有关键的图形处理单元都位于 GPC 内部。每个 GPC 包括一个专用的光栅引擎、两个光栅操作（ROP）分区（每个分区包含八个独立的 ROP 单元），以及八个 TPC。每个 TPC 包括一个 PolyMorph 引擎和两个 SM。

L2 缓存。完整的 GB202 GPU 包含128 MB 的 L2 缓存，而 RTX 5090 特别配备了96 MB 的 L2 缓存。所有应用程序都能从这个大型快速缓存池中受益，而像光线追踪（特别是路径追踪）这样的复杂操作将获得巨大好处。

SM 架构

SM 核心组件。NVIDIA 流式多处理器（SM）是 NVIDIA GPU 架构的核心组件，在 GPU 的并行处理能力中扮演关键角色，通过其各种核心（CUDA、Tensor、RT）、高效的 warp 调度、内存管理以及对 AI 等现代工作负载的支持，实现了大规模并行。每个完整的 GB202 芯片包含192个 SM，每个 SM 包括128个 CUDA 核心、一个 Blackwell 第四代 RT 核心、四个 Blackwell 第五代 Tensor 核心、4个纹理单元、一个256 KB 寄存器文件和128 KB 的 L1/共享内存，可根据图形和计算工作负载的需求配置不同的内存大小。

图 5. Blackwell 流式多处理器（SM）

INT 运算更新。在本白皮书的 v1.1 版本中增加了 INT 运算更新。需要注意的是，通过将 INT32 核心与 FP32 核心完全统一，Blackwell GB20x GPU 中许多整数指令的可能整数运算数量是 Ada 的两倍，如图6所示。然而，统一的核心在任何给定的时钟周期内只能作为 FP32 或 INT32 核心运行。虽然许多常见的 INT 运算可以达到高达2倍的吞吐量，但并非所有 INT 运算都能实现2倍的加速。更多细节请参考 NVIDIA CUDA 编程指南。

SM 架构演进。下图6展示了 SM 架构在 Ada 和 Blackwell 之间的演变。

图 6. Ada SM 与 Blackwell SM

SM 设计优化方向。Ada SM 是为标准着色器设计和优化的。Blackwell SM 则是为神经着色器设计和优化的。

纹理单元增加。纹理单元的数量从 GeForce 4090 的512个增加到 GeForce 5090 的680个。纹理单元负责处理纹理映射操作，包括从纹理中提取纹素、应用纹理过滤和处理纹理坐标。纹素代表应用于3D表面的纹理信息，包括颜色和图案，定义了应用于物体表面的纹理视觉外观。

纹理速率提升。随着纹理单元的增加，RTX Blackwell 的双线性过滤纹素速率也随之提高。RTX 5090 提供 1636.76 Gigatexels/sec，而 RTX 4090 为 1290.2 Gigatexels/sec。值得注意的是，与 Ada 相比，RTX Blackwell SM 还将每周期点采样纹理的性能提高了一倍，这可以加速某些纹理访问算法，例如与下文描述的新 Blackwell 神经纹理压缩方法一起使用的随机纹理过滤（STF）。

GDDR7 内存子系统

与 DRAM 产业的合作。多年来，NVIDIA 一直与 DRAM 行业密切合作，在 DRAM 架构、电路设计和信号传输方面进行协作，以实现最高的 GPU 内存速度。随着 Ampere GPU 架构的推出，NVIDIA 和美光公司出货了首批 GDDR6X 设备，并共同努力为 Ada GPU 提供了更高的内存速度。GeForce RTX 4080 配备了 22.4 Gbps GDDR6X 内存，是当时所有采用 GDDR 内存的 GPU 中速度最高的，而 GeForce RTX 4090 提供了 1 TB/sec 的峰值内存带宽。

图 7. GDDR7 与前代 GDDR6/6x 的对比

GDDR7 引入 PAM3 技术。随着 Blackwell 的推出，NVIDIA 推出了 GDDR7，这是一种新的超低电压 GDDR 内存标准，采用 PAM3（脉冲幅度调制）信号技术，实现了高速内存设计的重大进步。NVIDIA 与 JEDEC 技术协会（全球微电子行业标准制定的领导者，拥有超过360家成员公司）的合作，帮助 PAM3（脉冲幅度调制：3个电平）成为 GDDR7 DRAM 的基础高频信号技术。

RTX 50 系列 GDDR7 规格。GeForce RTX 5090 配备了 28 Gbps GDDR7 内存，提供 1.792 TB/sec 的峰值内存带宽；而 GeForce RTX 5080 配备了 30 Gbps GDDR7 内存，提供 960 GB/sec 的峰值内存带宽。

PAM3 信号技术的优势。从 GDDR6X 中的 PAM4 信号（4个电平，每周期传输2位）过渡到 GDDR7 中的 PAM3 信号（3个电平，每周期传输1.5位），结合创新的引脚编码方案，使得 GDDR7 能够实现显著增强的信噪比（SNR）。这一演进还以最小的 I/O 密度开销，将独立通道的数量增加了一倍。

GDDR7 的性能与能效提升。凭借增加的通道密度、改进的 PAM3 信噪比、先进的均衡方案、重新设计的时钟架构以及增强的 I/O 训练，GDDR7 提供了显著更高的带宽。这些进步也带来了能效的显著提升，提供了卓越的性能和更长的电池寿命，特别是在功耗受限的系统中。

RAS 支持。RTX 50 系列主板的 GDDR7 实现包括对增强型 CRC 的支持，以提高 RAS（可靠性、可用性、可服务性）。

ECC 功能更新。在本白皮书的 v1.1 版本中增加了 ECC 信息更新。对于 GDDR7 内存，ECC（纠错码）功能内置于 DRAM 芯片本身，并且在配备 GDDR7 内存的 GeForce RTX GPU 上始终启用。支持单位错误校正（SEC）。始终启用的内置 ECC 不会产生性能损失，因此无需在 NVIDIA 软件中设置开关来开启/关闭 ECC。另外，请注意，配备 GDDR7 的 RTX Blackwell GPU 支持 EDR（错误检测和重放）技术，类似于我们配备 GDDR6x 的 GPU。

表 1. GeForce RTX 5090 vs GeForce RTX 4090 vs GeForce RTX 3090 基本规格

有关 GeForce RTX 5090 的完整规格列表，请参阅本文档末尾的附录 A。

Blackwell 第五代 Tensor Cores

Tensor Cores 功能。Tensor Cores 是专门为 AI 和 HPC 应用中使用的矩阵乘法和累加数学运算量身定制的高性能计算核心。Tensor Cores 为深度学习神经网络训练和推理操作中至关重要的矩阵计算提供了突破性的性能。

支持的数据格式。RTX Blackwell Tensor Cores 支持 FP16、BF16、TF32、INT8 以及 Hopper 的 FP8 Transformer 引擎。RTX Blackwell 新增了对 FP4 和 FP6 Tensor Core 运算的支持，以及新的第二代 FP8 Transformer 引擎，这与我们的数据中心级 Blackwell GPU 类似。

FP4 支持

应对模型增长的挑战。自2022年首批生成式 AI 模型发布以来，其能力不断提升。但这种提升通常伴随着参数和模型尺寸的增加。随着模型在计算和内存需求上的增长，即使在最新的硬件上运行这些模型也可能变得困难。

FP4 解决方案。GeForce RTX 50 系列在其新的 Tensor Cores 中加入了对 FP4 数据格式的支持以解决此问题。FP4 提供了一种更低的量化方法，类似于文件压缩，可以减小模型尺寸。与大多数模型发布的默认方法 FP16 精度相比，FP4 所需的内存不到一半，而50系列 GPU 的性能是上一代的两倍以上。通过 NVIDIA TensorRT 模型优化器提供的高级量化方法，FP4 几乎不会造成质量损失。

FP4 性能实例。例如，Black Forest Labs 的 FLUX.dev 模型在 FP16 精度下需要超过23GB 的 VRAM，这意味着它只能在 GeForce RTX 4090、RTX 5090 和我们的专业 GPU 上得到支持。使用 FP4，FLUX.dev 需要不到10GB 的 VRAM，因此可以在更多的 GeForce RTX GPU 上本地运行。

性能对比。使用 GeForce RTX 4090 和 FP16，FLUX.dev 模型可以在15秒内生成30步的图像。而使用 GeForce RTX 5090 和 FP4，图像可以在短短五秒多一点的时间内生成。

图 8. Blackwell 第五代 Tensor Cores 支持 FP4，吞吐量是 FP8 的两倍

Blackwell 第四代 RT Cores

背景与需求。如今的游戏比以往任何时候都更加逼真，拥有细节丰富的世界和高质量的视觉效果。光线追踪能够实现物理精确的光照、阴影和反射，创造出与现实世界非常相似的虚拟环境。开发者还通过增加几何细节和使用各种高级着色技术来增强游戏。NVIDIA 工程师对 RT Core 的几个重要特性进行了增强，以实现对高度复杂几何体的高性能光线追踪。

RT Cores 基础功能。作为背景知识，Turing、Ampere 和 Ada GPU 中的 RT Cores 包含用于加速包围盒层次结构（BVH）数据结构遍历的专用硬件单元，并执行光线-三角形相交和光线-包围盒相交测试计算。通过为这些核心光线追踪功能提供专用资源，工作从 SM 上卸载，使其能够执行其他的像素、顶点和计算着色任务。

光线-三角形相交测试性能提升。光线-三角形相交测试是一种计算密集型操作，在渲染光线追踪场景时会高频率执行。Blackwell 架构中的第四代 RT Core 提供了比 Ada 高两倍的光线-三角形相交测试吞吐量。

图 9. 新的第四代 RT Core 框图（RTX Blackwell 架构）

RT Cores 新功能。除了上述指定的功能外，Ada 和 Blackwell GPU 中的 RT Cores 还包含一个名为“不透明度微图引擎”的专用单元。该引擎评估不透明度微图并直接对几何体进行 alpha 测试，以显著减少基于着色器的 alpha 计算。新的 Mega Geometry 技术为三角形簇级结构提供了 RTX 加速的光线追踪。新的 Blackwell RT Core 包含一个“三角形簇相交引擎”，进一步加速了 Mega Geometry 的光线追踪，同时还包括标准的光线-三角形相交测试。Blackwell 还增加了线性扫描球体（Linear Swept Spheres）作为硬件加速路径，用于光线追踪像头发这样的精细几何体。这些都将在下文详述。

Mega Geometry

技术目标。Mega Geometry 是一项新的 RTX 技术，旨在大幅增加光线追踪应用中可能的几何细节。特别是，Mega Geometry 使像 Epic 的 Unreal Engine 5 这样的游戏引擎，能够利用其现代的细节层次（LOD）系统（如 Nanite），以全保真度对其几何体进行光线追踪。这使得不再需要为光线追踪效果回退到低分辨率代理模型，从而为阴影、反射和间接光照带来了新的质量水平。Mega Geometry 还有助于将以前仅用于产品级渲染的技术，如置换细分曲面，引入实时光线追踪领域。

细节层次（Level-of-Detail）

集成光线追踪的挑战。有两个主要障碍阻碍了将光线追踪直接集成到像 Nanite 这样的系统中。Mega Geometry 由新的 RTX API 扩展、高性能驱动程序实现以及 Blackwell RT Cores 中的特定优化组成，旨在解决这两个挑战：

基于簇的 LOD 更新。当一个物体靠近或远离相机时，游戏引擎通常会调整该物体的细节层次。也就是说，渲染网格中的三角形数量会随时间变化。许多传统方法会预先计算少量代表给定物体不同 LOD 级别的网格。像 Nanite 这样的系统通过增量替换大约128个三角形的小批次（称为“簇”）来更新 LOD。构成最终渲染网格的簇配置可能会频繁变化（例如每帧），从而实现平滑的 LOD 过渡而不会出现跳变。然而，为了对网格进行光线追踪，必须构建一个独立的数据结构，即包围盒层次结构（BVH）。一个 Nanite 风格的系统在大量高多边形数量的物体上每帧触发的大量 BVH 构建将使现有的光线追踪实现过载，使得该系统对于像游戏这样的实时应用不可行。

解决方案：簇级加速结构 (CLAS)。Mega Geometry 提供了新的 BVH 构建能力，将三角形簇作为一等公民。新的簇级加速结构（CLAS）可以从空间紧凑的最多256个三角形的批次中生成。然后，一组 CLAS 被用作构建最终 BVH 的输入。CLAS 可以按需生成，例如当一个物体从磁盘加载时，然后缓存以备将来帧使用。因为每个 CLAS 代表大约100个三角形的集合，所以后续 BVH 构建所需的处理量比经典的基于三角形的方法减少了两个数量级。因此，游戏引擎可以为每帧预算更多的 BVH 构建，并通过从 CLAS 重建受影响物体的 BVH 来处理簇-LOD 切换。

图 10. 使用簇的 BVH 和网格

API 设计与 CPU 开销。作为对现有光线追踪解决方案的进一步改进，所有 Mega Geometry API 都设计为完全批处理，其输入参数完全由 GPU 内存驱动。这使得游戏引擎可以在 GPU 上高效地运行像 LOD 选择、动画、剔除等逻辑，同时最大限度地减少与 CPU 的往返。通过有效使用 Mega Geometry API，应用程序几乎可以消除与 BVH 管理相关的 CPU 开销。

图 11. TLAS/BLAS 加速结构和簇 BLAS

高对象数量。强调高几何细节的游戏引擎往往希望场景中有越来越多的对象数量。没有 Mega Geometry，应用程序必须每帧从场景中的所有对象构建一个 TLAS。这对于几千个对象的数量效果很好，但随着世界规模的扩大，成本变得高得令人望而却步。

图 12. 使用 Mega Geometry 和其他新 Blackwell 技术的 NVIDIA“Zorah 演示”

解决方案：分区顶层加速结构 (PTLAS)。为了解决这个问题，Mega Geometry 引入了一种名为“分区顶层加速结构”（PTLAS）的新型 TLAS。PTLAS 不是每帧从头构建一个新的 TLAS，而是能够利用场景中大多数对象从一帧到下一帧是静态的这一事实。应用程序通过将对象聚合成“分区”并仅更新那些已更改的分区来管理一个持久的 PTLAS 对象。例如，一个游戏可能会将静态游戏世界的各个区域放入其自己的分区中，同时将动态对象分开放在一个每帧重建的“全局分区”中。请求的分区更新越少，与传统 TLAS 相比的运行时节省就越大。

图 13. 分区顶层加速结构（PTLAS）

细分曲面

应用扩展。虽然 Mega Geometry 的一个主要目标是实现光线追踪与游戏引擎现代细节层次系统的顶级结合，但其应用范围比该特定用例更广。灵活的、由 GPU 驱动的簇生成，以及极快的 BVH 构建，为高级几何技术开辟了许多新的可能性。细分曲面就是其中一个例子。

细分曲面简介。细分曲面是一种在电影和其他产品级渲染工作流程中常用的几何表示类型。通过像 Catmull-Clark 这样的细分规则对基于四边形的网格进行迭代细化，通常还应用位移贴图，可以得到平滑渲染的曲面，同时保持高建模效率和动画友好性。

Mega Geometry 对细分曲面的支持。细分曲面的快速光线追踪通常是通过将其细分成三角形来实现的。对于动画或变化的视点，每帧都需要新的细分，导致大量昂贵的 BVH 构建。Mega Geometry 使得应用程序可以将其细分过程直接映射到簇生成，并从生成的 CLASes 极其快速地构建 BVH。这种方法为动画置换细分曲面的光线追踪解锁了前所未有的实时性能。

Mega Geometry API 和架构支持

基础技术定位。围绕 BVH 管理的功能是任何光线追踪系统的基本支柱。Mega Geometry 是一项核心技术，将 BVH 能力提升到新的水平，并使应用程序能够发明比以往更具创意和效率的几何管线。因此，Mega Geometry 将在广泛的 API 和硬件上得到支持：

API 支持。Mega Geometry 在 NVIDIA 支持的所有光线追踪 API 中均可用：
* DirectX 12 (DXR) 通过 NVAPI 扩展以支持簇和 PTLAS
* Vulkan 添加了用于簇和 PTLAS 的供应商扩展
* OptiX 9.0 添加了对簇的本地支持

GPU 架构支持。Mega Geometry 在所有 RTX GPU 上都受支持，从 Turing 开始。

Blackwell RT Core 对 Mega Geometry 的增强

硬件优化。Blackwell 的第四代 RT Cores 是为 Mega Geometry 量身打造的。硬件中的特殊簇引擎实现了新的几何和 BVH 数据压缩方案，同时提供了比第三代 RT Cores 高达2倍的光线-三角形相交率。因此，Blackwell 将典型用例（如 Nanite 场景）的 VRAM 占用减少了数百 MB。

线性扫描球体 (LSS)

问题背景。渲染器通常使用各种曲线基元来描绘头发、毛皮、草和其他类似股线的物体。对于光线追踪，这些基元通常使用自定义相交着色器在软件中实现。然而，光线-曲线相交测试计算量大，限制了曲线在实时光线追踪渲染中的使用，并延长了离线渲染器的渲染时间。

现有方法及其局限性。对于实时场景，一种替代方法是使用相对粗糙的近似值来表示头发，例如带纹理的片（cards），但这会牺牲图像质量。一种更好但更昂贵的方法是用三角形来建模单个股线。例如，其中一种技术是“不相交正交三角形带”（DOTS），它使用一个网格状、不相交模式排列的三角形带网格，其中三角形带是相互独立的，不共享顶点。虽然质量高于片，但不相交模式会产生边缘伪影，导致渲染中出现可见的缺陷，如下面的图14所示。

图 14. 不相交正交三角形带（DOTS）序列

LSS 解决方案。Blackwell 的 RT Core 引入了对一种名为“线性扫描球体”（LSS）的新基元的硬件级光线相交测试支持。一个线性扫描球体类似于一个细分曲线，但它是在空间中通过线性分段扫描球体来构建的。每个分段的起点和终点的球体半径可以不同，从而可以灵活地近似各种类型的股线。作为 LSS 的一个特例，Blackwell 硬件基元还直接支持球体（没有扫描的线性分段），这对于粒子系统等应用很有用。

性能优势。与 DOTS 相比，像渲染人类头发这样的常见用例，使用 LSS 的速度大约快2倍，同时存储几何体所需的 VRAM 大约减少了5倍。

图 15. 线性扫描球体（LSS）序列

着色器执行重排序 (SER) 2.0

技术功能。SER 是一项强大的技术，它让光线追踪应用能够高效地重组 GPU 上的大规模并行线程，以实现最大化的硬件利用率。动态重排工作对于具有大量执行或内存访问分歧的挑战性光线追踪工作负载（如路径追踪）尤其有效。由于可以连贯执行神经工作负载的线程可以直接发送到 Tensor Cores，SER 也显著加速了神经着色。

图 16. 着色器执行重排序（SER），概念图

Blackwell 中的增强。SER 最初在 Ada 架构中引入，在 Blackwell 中通过对硬件和软件的多项创新得到了增强，进一步提高了该功能的有效性。Blackwell 上 SER 的核心重排逻辑效率提高了一倍，减少了重排开销并提高了其精度。更高的精度带来了更智能的相干性提取，并让开发者能够提供更多特定于应用的知识来进行重排操作，从而提高整体工作负载性能。

API 与应用。SER 完全由应用程序通过一个小 API 控制，允许开发者轻松地将重排应用于最能受益的工作负载。该 API 还为编程模型引入了关于光线追踪着色器调用的新灵活性，使得在利用重排的同时，能够以更简化的方式构建渲染器实现。一些采用路径追踪的游戏以及一些产品级渲染软件包已经利用了 SER。这些应用将直接从 Blackwell SER 的增强中受益，无需任何代码更改。

AI 管理处理器 (AMP)

功能定义。AI 管理处理器（AMP）是 GPU 上的一个完全可编程的上下文调度器，旨在从系统 CPU 卸载 GPU 上下文的调度工作。AMP 增强了 Windows 中 GPU 上下文的调度，以更有效地管理在 GPU 上运行的不同工作负载。一个 GPU 上下文封装了 GPU 执行一个或多个任务所需的所有状态信息。当运行多个任务时，可以使用多个上下文以实现更好的任务隔离，并确保多个应用程序可以同时共享 GPU 而不会发生冲突。一个例子可以是协调和调度异步 AI 模型工作负载，如 NVIDIA Avatar Cloud Engine (ACE) 及其语音、翻译、视觉、动画和行为模型，以及 G-Assist，与 GPU 上的其他图形工作负载同时运行。

硬件实现与架构模型。AI 管理处理器使用位于 GPU 管线前端的专用 RISC-V 处理器实现，它提供了比以前由 CPU 驱动的方法更快、延迟更低的 GPU 上下文调度。Blackwell AMP 调度架构与微软的架构模型相匹配，该模型通过 Windows 硬件加速 GPU 调度（HAGS，在 Windows 10 2020年5月更新中引入）描述了 GPU 上的一个可配置调度核心。HAGS 允许 GPU 更有效地处理自己的内存管理，从而减少延迟并可能提高游戏和其他图形密集型应用的性能。

性能优势。AMP 的作用是接管 CPU 调度 GPU 任务的责任，减少对系统 CPU 的依赖，而 CPU 通常是游戏性能的瓶颈。实际上，让 GPU 管理自己的任务队列可以导致更低的延迟，因为 GPU 和 CPU 之间的来回通信减少了。这使得游戏中的帧率更平滑，并且因为 CPU 负担减轻，Windows 中的多任务处理也更好。

图 17. AI 管理处理器（AMP）调度 AI / 图形工作负载

服务质量提升。本质上，AMP 用于协调、公平调度，并确保更流畅的游戏体验，避免性能下降。对于 LLM，它通过减少首次响应的时间来实现这一点；对于游戏，它优先处理游戏引擎的工作以防止卡顿。通过在更可预测的时间交付工作，AMP 可以根据工作负载显著提高服务质量。

新的 RTX Blackwell 视频和显示功能

4:2:2 色度采样支持。虽然 Ada 和之前的 GPU 架构在 H.264 和 H.265 视频中支持 4:4:4 和 4:2:0 色度格式，但 Blackwell 新增了对 4:2:2 色度采样视频的硬件编码和解码支持。

YUV 颜色格式解释。视频文件使用 YUV 颜色格式。颜色不是以红、绿、蓝（RGB）值存储，而是以亮度（Y）、蓝色差色度（U）和红色差色度（V）存储。

色度采样的原理与优势。色度采样利用了人眼对亮度变化比对色度变化更敏感这一事实。在 YUV 4:4:4 视频中，每个通道都保留其完整值；然而，这导致文件尺寸更大，传输视频数据所需的带宽也更高。色度采样通过在视频色度通道中存储较少的信息来减少存储和带宽需求。对于 YUV 4:2:0 视频，亮度通道保留完整信息，但两个色度通道仅包含原始颜色信息的25%。这导致每帧视频所需的数据是未压缩 4:4:4 视频帧的一半，代价是颜色信息的损失。这种颜色损失并不意味着图像质量低，从蓝光到 HDR10 和当今的流媒体平台，都以 4:2:0 格式向观众分发内容。

4:2:2 格式的平衡与应用。在相机中以及在编辑和色彩校正期间，最终颜色选择做出之前，YUV 4:2:2 在保留更多颜色信息与减少文件大小和带宽需求之间取得了平衡。在 YUV 4:2:2 视频中，保留了完整的亮度值，并保留了一半的原始色度颜色信息。一个 4:2:2 压缩的视频帧所需的数据仅为未压缩 4:4:4 视频帧的三分之二，但提供的颜色分辨率是 4:2:0 颜色压缩帧的2倍。

硬件解码的重要性。由于 YUV 4:2:2 色度采样提供了比 4:4:4 更低的数据需求，但比 4:2:0 更高的颜色精度，它已成为高端半专业和专业摄像机的热门选择。然而，基于软件的 4:2:2 解码会对系统 CPU 造成高负载，使得处理 4:2:2 具有挑战性。

图 18. 4:2:2 提供2倍的颜色信息，RAW 文件大小是 4:2:0 的1.3倍

4:2:2 对 HDR 和细节的帮助。4:2:2 相对于 4:2:0 保留的额外颜色信息对于 HDR 内容特别有帮助，并且对于保持精细细节（如文本或细线）或源文件会被反复进行色彩校正的工作流程（如调色）也很有用。

第九代 NVENC

质量与功能提升。Blackwell 中新的第九代 NVENC 编码器将 AV1 和 HEVC 的质量提高了5% BD-BR PSNR，并增加了对 4:2:2 H.264 和 HEVC 编码的支持。还有一个新的 AV1 超高质量（UHQ）模式，它需要额外的时间，但能提供额外的5%改进，以获得最佳质量。（请注意，AV1 UHQ 也将通过其 AV1 编码器和额外的软件支持在 RTX 40 系列 GPU 上提供，但质量将低于 Blackwell。）

性能增益图表。下面的图表展示了 AV1 编码器的代际改进，以及如何将它们与新的 AV1 UHQ 模式相结合，可以产生高达15%的 BD-BR PSNR 改进。如果使用 Netflix 的 VMAF 指标——一个旨在捕捉实际主观改进的指标，增益甚至更大。

表 2. 在 RTX 5090 和 4090 上使用 4K60 测量的数据。

编码器数量与导出速度。GeForce RTX 5090 GPU 支持多达三个编码器和两个解码器，与上一代相比，导出速度提高了50%以上，与只有一个编码器的 RTX 3090 GPU 相比，速度更是提升了4倍。

图 19. 第九代 NVENC 编码器提高了编码速度。

第六代 NVDEC

解码器改进。除了 NVENC，Blackwell GPU 还包括一个改进的第六代硬件解码器（NVDEC），其 H.264 解码速度提高了2倍（与 HEVC 和 AV1 解码速度相匹配），并支持 4:2:2 H.264 和 HEVC 解码。

DisplayPort 2.1b

带宽与支持的分辨率。Blackwell GPU 引入了对 DisplayPort 2.1b 的支持，利用 UHBR 20（超高比特率 @ 每通道20 Gbits/sec）传输模式，提供高达80 Gbps 的带宽。DisplayPort 2.1b UHBR 20 能够以最高刷新率运行高分辨率显示器：8K (7680x4320) @ 165Hz（需要 DSC），和 4K (3840x2160) @ 480Hz（需要 DSC）。请注意，最高的链接速率需要经过 DP80LL 认证的电缆。

Blackwell Max-Q 能效改进

Max-Q 理念。Max Q 的理念是从平台功耗预算中提取尽可能多的性能，并让 GPU 在空闲时能迅速进入更深的功耗状态以节省尽可能多的电力。

Blackwell 的 Max-Q 设计

图 20. 新的 Max Q 能效创新以改善电池寿命。

先进的电源门控

问题与解决方案。从活动功耗状态转换到非常深的功耗状态的问题是，功耗状态越深，进入和退出该状态所需的时间就越长。Blackwell 减少了进入和退出不同功耗状态的延迟。它还拥有我们有史以来最先进的芯片上不同单元的电源门控技术，具有多个新的门控级别，允许对功耗进行非常精细的控制。

图 21. 先进的时钟、电源和轨道门控提供对功耗的精细控制。

时钟门控。新的时钟门控功能允许整个时钟树非常迅速地被关闭，即使在芯片只有部分空闲或空闲时间非常短（通常被认为是“活动”状态）的工作区域也能节省动态功耗。对于 Blackwell 来说，一个大的重点是内存功耗管理，以利用 GDDR7 的快速唤醒时钟架构实现峰值效率。现在，整个内存时钟树可以首次被门控。

电压轨分离。新增了一个电压轨，分别为 GPU 核心和内存系统供电。分离的轨道允许对芯片的大面积区域进行独立的电压控制，可以根据工作负载进行优化，从而提高性能。它还允许 Blackwell 在小的空闲期间关闭芯片的未使用部分，减少漏电功耗。通过 Blackwell 的设计，轨道门控状态可以以帧的粒度进入，这对于电池供电的游戏和创作特别有帮助。分离的电源轨允许在 GPU 空闲时降低功耗，通过在不需要时关闭 GPU 核心，大大提高了依赖电源管理的计算机（如笔记本电脑）的整体效率。

加速频率切换

时钟架构革新。Blackwell 融入了十多年来时钟架构的最大革新。有了它，时钟可以比以前的 GPU 架构快1000倍地适应动态工作负载，使 Blackwell 能够快速响应 GPU 工作负载的动态特性，并根据工作负载上下调整时钟速度，以获得最佳性能和能效。以前，时钟在一帧的生成过程中实际上被锁定在相同的频率。

图 22. 加速频率切换

性能与功耗优势。加速频率切换使得在给定的功耗预算内可以实现 GPU 的全部性能。此外，通过快速适应短的空闲时间框架——即 CPU 发送给 GPU 的一帧中工作块之间的间隙——也节省了功耗，这使得 GPU 可以在非空闲期间爆发到更高的时钟，结果是免费的性能提升。

低延迟睡眠

进入睡眠状态的加速。Blackwell 的低功耗状态进入速度更快，使得有更多时间用于节省功耗，并且通过利用先进的电源门控，能够快速地逐步对芯片进行电源门控——更快地节省更多功耗。

深度睡眠的效率。在最深的睡眠状态下，Blackwell 进入睡眠的速度比 Ada 快10倍，从而在最低功耗的睡眠状态下实现更多的功耗节省。

图 23. 在 Ada 和 Blackwell 上运行小型语言模型推理的真实案例

实际案例。在像图23所示的在小型语言模型上运行推理的真实案例中，通过 Blackwell 的性能（减少活动周期）、通过电源和电压门控实现的较低功耗过渡状态，以及比以前快10倍地进入最深睡眠状态的组合，可以观察到高达50%的功耗节省。

DLSS 4

技术概述。DLSS 是一套革命性的神经渲染技术套件，它使用 AI 来提升 FPS、减少延迟并改善图像质量。最新版本 DLSS 4 带来了新的多帧生成（MFG），具有更快的性能和更低的内存使用量，以及一个包含超级分辨率（SR）、光线重建（RR）和深度学习抗锯齿（DLAA）进步的新 Transformer 模型，可增强图像质量和稳定性。这些新技术由 GeForce RTX™ 50 系列 GPU 和第五代 Tensor Cores 驱动，并由云中的 NVIDIA AI 超级计算机支持，不断提升您 PC 的游戏能力。

图 24. DLSS 为所有 RTX 游戏玩家带来升级

DLSS 4 多帧生成

技术原理。帧生成技术于2022年随 Ada 架构首次引入。通过使用光流场、游戏运动矢量和 AI 网络，在每对传统渲染的帧之间生成一个单帧。为神经渲染而构建并使用第五代 Tensor Cores 的 Blackwell 架构，使得 DLSS 多帧生成能够通过为每个传统渲染的帧生成多达三个额外帧来提升 FPS。

实现多帧生成的技术创新。DLSS 4 多帧生成结合了多项 Blackwell 硬件和 DLSS 软件创新，使生成多帧成为现实。我们新的帧生成 AI 模型比我们之前的帧生成方法快40%，使用的 VRAM 少30%，并且每个渲染帧只需运行一次即可生成多帧。光流场的生成速度通过用一个非常高效的 AI 模型替换硬件光流而加快。这些 AI 模型共同显著降低了生成额外帧的计算成本。

帧平滑技术。一旦新帧生成，它们会被均匀地调整节奏以提供流畅的体验。DLSS 3 帧生成使用基于 CPU 的节奏调整，其可变性会随着额外帧的增加而复合，导致每帧之间的帧节奏一致性较差，影响平滑度。

硬件支持。为了解决生成多帧的复杂性，Blackwell 使用了增强的“翻转计量”（Flip Metering），将帧节奏逻辑转移到显示引擎，使 GPU 能够更精确地管理显示时序。Blackwell 显示引擎的像素处理能力增强了一倍，以支持更高分辨率和刷新率，用于 DLSS 4 的硬件翻转计量。

DLSS 4 多帧生成结合了多项 Blackwell 硬件和 DLSS 软件创新来生成多帧。
图 25. DLSS 4 多帧生成

Blackwell 专属特性。一些 Blackwell 独有的特性使 DLSS 4 能够有效工作。第五代 Tensor Cores 包含更强的计算能力，使它们能够更快地执行计算光流和生成多帧的一系列 AI 模型。AI 管理处理器能够更好地调度 DLSS AI 处理、图形渲染和帧节奏算法。

Transformer 模型

架构转变。自2020年 DLSS 2 发布以来，DLSS 首次过渡到一种全新的神经网络架构，这带来了许多好处。AI 对图像进行分类的能力是革命性的，这得益于一种称为卷积神经网络（CNN）的技术。CNN 的工作原理是将像素局部聚合在一起，并以树形结构从低层到高层分析数据。这种结构在计算上是高效的，这就是为什么它被称为卷积神经网络。

DLSS 4 的 Transformer 模型。DLSS 4 通过为 DLSS 超级分辨率、DLSS 光线重建和深度学习抗锯齿（DLAA）引入更强大的、基于 Transformer 的 AI 模型来提高图像质量和渲染平滑度，这些模型由 NVIDIA 的超级计算机训练，以更好地理解和渲染复杂场景。使用基于 Transformer 架构的神经网络在处理顺序和结构化数据方面表现出色。Transformer 模型背后的思想是，关于计算如何花费以及如何分析的注意力应该由数据本身驱动，因此神经网络应该学习如何引导其注意力，以观察数据中最有趣或最有用的部分来做出决策。

Transformer vs. CNN。与 CNN 模型相比，Transformer 使用自注意力机制，可以更容易地识别更大像素窗口范围内的长程模式。Transformer 的扩展性也更有效，使得用于 DLSS 4 的模型可以吸收多2倍的参数，同时使用更多的 Tensor Core 处理能力来为所有 RTX 用户重建更高图像质量的图像。结果是帧与帧之间的稳定性得到改善，光照细节增强，运动中的细节也更多。将神经网络架构从基于 CNN 变为基于 Transformer，在许多场景中都带来了图像质量的显著飞跃。

DLSS 超级分辨率 (SR)

功能与原理。SR 通过使用 AI 从低分辨率输入输出高分辨率帧来提升性能。DLSS 采样多个低分辨率图像，并使用运动数据和先前帧的反馈来构建高质量图像。Transformer 模型的最终产品在时间上更稳定，鬼影更少，运动中的图像细节更多，并且与先前版本的 DLSS 相比，抗锯齿效果更好。

Transformer 模型的超级分辨率展示了更好的时间稳定性、更少的鬼影和运动中更高的细节。
图 26. Transformer 模型 vs CNN 模型超级分辨率

DLSS 光线重建 (RR)

功能与原理。RR 通过使用 AI 为密集的光线追踪场景生成额外的像素来增强图像质量。DLSS 用 NVIDIA 超级计算机训练的 AI 网络取代了手动调整的去噪器，该网络在采样光线之间生成更高质量的像素。在密集的光线追踪内容中，用于 RR 的 Transformer 模型在质量上获得了更大的提升，尤其是在具有挑战性光照的场景中。事实上，典型去噪器的所有常见伪影都得到了显著减少。

Transformer 模型的光线重建在图像质量上带来了提升，尤其是在具有挑战性光照条件的场景中。
图 27. Transformer 模型 vs CNN 模型光线重建

深度学习抗锯齿 (DLAA)

功能与原理。DLAA 使用基于 AI 的抗锯齿技术提供更高的图像质量。DLAA 使用为 DLSS 开发的相同超级分辨率技术，在原生分辨率下构建更逼真、高质量的图像。结果是在场景中提供了增强的时间稳定性、运动中的细节和更平滑的边缘。

神经着色器

设计目标。Blackwell 的设计旨在开启未来，让神经着色器成为开发游戏的主要着色器技术形式。Blackwell 的许多架构改进都是专门为了提高神经着色器的性能和效率而进行的，本节将描述这些优化。

着色器简介。着色器是在 GPU 上运行的程序，用于控制图形的渲染方式，其复杂性取决于所需的视觉效果和处理。较新的着色技术增加了新的真实感层次。最基本的形式是，着色器在游戏中渲染3D空间场景时计算光、暗和颜色的级别，这个过程称为着色。它们在 GPU 上作为渲染管线的一部分运行。

着色器发展历程。图形最初是在 GPU 上使用不可编程的着色器（也称为固定功能管线）处理的，其中图形管线中的操作是预定义的、可配置的，但不可编程。这是因为它们受到 GPU 硬件设计的限制，该设计专门用于执行一组预定义的操作。

可编程着色器演进。GeForce 3 引入了第一点可编程着色，即顶点着色器。不久之后，高级着色语言 HLSL 允许像素着色，因此屏幕上的一切都可以自定义。DX10 引入了几何着色器。DX11 引入了计算着色器，然后对 DX12 的更新提供了使用 BVH（包围盒层次结构）加速结构的 DirectX 光线追踪，允许任何光线与场景几何体相交，然后能够产生一系列不同的着色操作。

神经着色器时代。随着 Blackwell 的发布，我们引入了由开发者创建的神经着色器时代，其中一些也将在前代 GPU 上运行。神经着色器是可编程着色的下一个进化步骤。开发者不是编写复杂的着色器代码来描述这些功能，而是训练 AI 模型来近似着色器代码会计算出的结果。神经着色器将成为游戏中的主要着色器形式，未来，所有游戏都将使用 AI 技术进行渲染。

技术实现。到目前为止，NVIDIA 一直在为 DLSS 使用神经着色，利用 CUDA 来驾驭 Tensor Cores。借助 DX12 和 Vulkan 的新 Cooperative Vectors API，Tensor Cores 可以通过任何类型的着色器（包括像素和光线追踪）在图形应用程序中访问，从而实现一系列神经技术。NVIDIA 与微软合作创建了新的 Cooperative Vectors API。当与 Slang 中的可微着色语言特性相结合时，Cooperative Vectors 解锁了游戏开发者在其游戏中使用神经技术的能力，包括神经纹理压缩（提供比块压缩格式高达七比一的 VRAM 压缩），以及其他技术，如 RTX 神经材质、神经辐射缓存、RTX 皮肤和 RTX 神经面部。

图 28. 图形中的神经加速

神经着色器的应用。神经着色器使我们能够训练神经网络学习复杂算法的高效近似，这些算法计算光如何与表面相互作用，高效地解压缩以超压缩形式存储在视频内存中的纹理，基于有限的地面真实数据预测间接光照，以及近似次表面光散射——所有这些都有助于创造更沉浸式的游戏体验。神经着色器的潜在应用尚未被完全探索，这意味着未来将有更多令人兴奋的功能，用于更快、更逼真（或风格化）的实时渲染。

RTX 神经材质

技术背景。在大制作的 CGI 电影中，一些材质可能非常复杂，由多个光学层组成。能够实时光线追踪多个图层是一项非常昂贵的工作。然而，AI 技术用神经近似取代了材质的原始数学模型，从而可以更好地表示材质，同时使得以游戏就绪的帧率渲染电影质量的资产成为可能。

图 29. 实时渲染电影质量资产。

RTX 神经纹理压缩 (NTC)

问题与解决方案。随着照片级真实感渲染的进步，所需的纹理数据量也随之增加，增加了对存储和内存的需求，同时也通过限制带宽影响性能。RTX 神经纹理压缩利用通过神经着色器访问的神经网络，比传统方法更有效地压缩和解压缩材质纹理。值得注意的是，我们的神经材质演示中，灯笼和织物的标准材质使用了1110兆字节的内存。然而，使用神经材质，该演示仅为相同的材质使用了333兆字节——节省了超过3倍，同时提供了更高的视觉质量。

随机纹理过滤 (STF)。随机纹理过滤（STF）用于在纹理采样过程中引入随机性，以减少视觉伪影，如混叠和摩尔纹，当应用传统的三线性或各向异性过滤不切实际时（例如对于神经纹理压缩）。在硬件纹理过滤可用的情况下，STF 仍然有用：它可以在单点采样的成本下提供更高阶的过滤，如三次或高斯过滤。由于 Blackwell GPU 的点采样纹理过滤速率提高了2倍，STF 在其上运行得特别快。

神经辐射缓存 (NRC)

功能与原理。NRC 利用神经着色器来缓存和近似辐射信息。通过利用神经网络的学习成果，可以存储复杂的照明信息，并用于在实时渲染中创建高质量的全局光照（GI）和动态照明效果。这通过减少 GPU 上的计算负载来提高效率，从而增强视觉质量和可扩展性。

神经辐射缓存（NRC）通过对路径追踪光线的推断来提高性能和间接光质量。
图 30. 神经辐射缓存

工作机制。NRC 是一个神经着色器，它将路径追踪光线在一次反弹后作为输入，并推断出多次反弹的最终光照值。NRC 实时地在现场游戏数据上训练微型神经网络来估计间接光照信号；发射一组初始光线，但并不完全追踪。相反，路径追踪器在一次反弹后将光线路径发送到缓存中，并模拟如果光线是全长且有多次反弹时场景会是什么样子。

性能与质量优势。NRC 提高了性能，因为 GPU 不必追踪超出少量初始反弹次数的光线，并且间接光照质量得到改善，因为 NRC 可以在有限的光线预算上推断出大量的反弹。此外，由于它具有高度的适应性，它可以在具有挑战性的场景中保持图像质量。因为它在你玩游戏时进行训练，所以它能够情境感知任何给定游戏中存在的各种场景，从而使其能够自我调整，为每个游戏场景提供准确的间接光照配置文件。

RTX 皮肤

渲染挑战。皮肤对于渲染来说是一个难题，游戏中物体的典型表示是流形。本质上，皮肤是一组构成物体外部的网格。如果材质对光不渗透，比如木头或金属，这就很好，因为与物体相交的光线只需要根据场景中的光源计算光照。然而，半透明材质的工作方式不同。光线会实际穿透到材质中，进入物体内部，然后在物体内部传输或散射，再从物体的其他部分发射出来。为了让皮肤更好，NVIDIA 借鉴了电影渲染技术，称为次表面散射，并将其带入了路径追踪的实时领域。RTX 皮肤是游戏中首次光线追踪的次表面散射示例，艺术家可以根据需要微妙或强烈地应用它。

图 31. RTX 皮肤实现了令人难以置信的逼真半透明材质

RTX 神经面部

渲染难题：恐怖谷。实时渲染的另一个难题是逼真地渲染面部。人类从出生起就习惯于识别任何人类面部的异常，有一个术语叫做“恐怖谷”，指的是渲染出的内容与预期之间的差异。电影渲染已经解决了这个问题，但它需要多出几个数量级的时间来生成一张令人信服的照片级真实图像，而不是游戏中运行时可以提供的图像。

RTX 神经面部使用实时生成式 AI 模型来推断出更自然的面部。
图 32. RTX 神经面部

生成式 AI 解决方案。RTX 神经面部提供了一种创新的新方法，使用生成式 AI 来提高面部质量。神经面部不是通过蛮力渲染，而是将一个简单的光栅化面部加上 3D 姿态数据作为输入，并使用一个实时生成式 AI 模型来推断出一个更自然的面部。生成的面部是在该面部在各种角度、不同光照、情感和遮挡条件下数千张离线生成的图像上训练的。训练管线可以使用真实照片或 AI 生成的图像，并使用扩散模型创建变体。训练好的模型然后经过 TensorRT 优化，以实时推断面部。RTX 神经面部代表了用生成式 AI 重新定义实时图形之旅的第一步。

A4 实验环境

本文是一份架构白皮书，未提供传统意义上的数据集、模型和软件栈等实验环境。但文中提及了用于展示和对比的硬件平台及其关键参数。

硬件配置:
- GPU:
  - GeForce RTX 5090: 基于 GB202 GPU，具有170个 SM（21,760 CUDA核心），170个第四代 RT 核心，680个第五代 Tensor 核心，24GB GDDR7 显存，384位显存接口，峰值显存带宽 1,792 GB/sec。
  - GeForce RTX 5080: 基于 GB203 GPU，具有80个 SM（10,240 CUDA核心），80个第四代 RT 核心，320个第五代 Tensor 核心，16GB GDDR7 显存，256位显存接口，峰值显存带宽 960 GB/sec。
  - GeForce RTX 5070 Ti: 基于 GB203 GPU，具有60个 SM（7,680 CUDA核心），60个第四代 RT 核心，240个第五代 Tensor 核心，16GB GDDR7 显存，256位显存接口，峰值显存带宽 896 GB/sec。
  - GeForce RTX 5070: 基于 GB205 GPU，具有50个 SM（6,400 CUDA核心），50个第四代 RT 核心，200个第五代 Tensor 核心，12GB GDDR7 显存，192位显存接口，峰值显存带宽 672 GB/sec。
- 显示接口: 支持 DisplayPort 2.1b，使用 UHBR 20 模式时带宽高达 80 Gbps。
软件配置:
- API: 提及的技术通过 DirectX 12 (DXR) via NVAPI, Vulkan vendor extensions, 和 OptiX 9.0 等 API 实现。
- 演示/模型: 文中以 Black Forest Labs 的 FLUX.dev 模型作为 FP4 性能的示例。

A4 实验结果

本文档主要阐述 Blackwell 架构的设计和功能，通过与前代架构的理论性能对比来展示其优势，而非提供详尽的基准测试结果。主要的性能声明和分析结论如下：

整数运算性能: Blackwell SM 架构通过统一 INT32 和 FP32 核心，使得许多整数指令的吞吐量相较于 Ada 架构翻倍（如图6所示）。
AI 推理性能 (FP4): 第五代 Tensor Core 支持新的 FP4 数据格式，与上一代相比，性能提升超过2倍。在 FLUX.dev 模型上，RTX 5090 (FP4) 的图像生成时间从 RTX 4090 (FP16) 的15秒缩短至约5秒（如图8所示）。
光线追踪性能: 第四代 RT Core 的光线-三角形相交测试吞吐量是 Ada 架构的2倍。对于头发等精细几何体，使用新的硬件加速 LSS 基元比 DOTS 方法快约2倍，同时 VRAM 占用减少5倍（如图14、15所示）。
着色器执行效率: SER 2.0 的核心重排逻辑效率是前代的2倍，能更有效地处理路径追踪等发散性工作负载（如图16所示）。
视频处理性能:
- 编码: 第九代 NVENC 编码器在 AV1 和 HEVC 编码质量上提升了 5% BD-BR PSNR，新的 AV1 UHQ 模式可额外提升5%。RTX 5090 凭借多编码器设计，视频导出速度比 RTX 4090 快50%以上（如表2和图19所示）。
- 解码: 第六代 NVDEC 的 H.264 解码速度提升了2倍，与 HEVC 和 AV1 解码速度持平。
能效: Max-Q 技术得到显著改进，时钟频率切换速度提升1000倍，进入深度睡眠状态的速度比 Ada 快10倍。在小型语言模型推理的实际案例中，综合功耗节省可达50%（如图22、23所示）。
DLSS 性能: DLSS 4 的多帧生成（MFG）技术可将帧率提升至 DLSS 3/3.5 的2倍。其新的 AI 模型速度快40%，VRAM 占用减少30%。Transformer 模型的引入也显著提升了 SR、RR 和 DLAA 的图像质量和稳定性（如图25、26、27所示）。
神经渲染内存效率: RTX 神经纹理压缩（NTC）在演示案例中实现了超过3倍的 VRAM 节省（从1110MB降至333MB），同时视觉质量更高。

A5 结论

NVIDIA RTX Blackwell 架构是图形和 AI 计算领域的一次重大飞跃，它建立在先前架构（如 Turing、Ampere 和 Ada）引入的 AI 技术基础之上，并将其推向了新的高度。Blackwell 的核心目标是通过深度整合 AI 来开启“神经渲染”的新时代，从而在游戏、内容创作和专业设计领域实现前所未有的图形真实感、交互性和效率。

该架构通过一系列软硬件创新实现了这一目标：
1. 核心硬件升级: 新的 SM 架构显著提升了整数运算性能，为神经着色等新兴工作负载优化。第四代 RT Cores 和第五代 Tensor Cores 分别将光线追踪和 AI 推理性能提升至新水平，特别是引入了 FP4 支持，极大地提高了 AI 模型的运行效率和可及性。GDDR7 内存和新的 Max-Q 能效技术则分别提供了更高的内存带宽和更低的功耗。
2. 颠覆性技术: 引入了 Mega Geometry 技术，解决了实时光线追踪中高复杂度几何体和动态 LOD 的难题。AI 管理处理器（AMP）优化了 GPU 资源的调度，确保 AI 和图形工作负载能够高效并发运行。
3. AI 应用的深化: DLSS 升级到第4代，通过多帧生成和 Transformer 模型，在帧率和图像质量上取得了巨大突破。更重要的是，Blackwell 通过“神经着色器”和 Cooperative Vectors API，将 AI 能力从 NVIDIA 主导的 DLSS 等功能，开放给所有开发者，催生了如神经纹理压缩、神经材质、神经辐射缓存等一系列创新应用，预示着未来图形渲染将全面转向 AI 驱动。

总而言之，Blackwell 不仅仅是一次常规的性能迭代，它通过在体系结构层面为 AI 深度集成铺平道路，标志着实时图形领域的一个重要转折点。它为开发者提供了强大的工具，以更低的成本创造出更逼真、更复杂的虚拟世界，并为生成式 AI 在实时应用中的普及奠定了基础。

A6 附录

附录 A: Blackwell GB202 GPU

GB202 旗舰 GPU 架构。Blackwell GPU 架构包含一系列针对不同图形市场细分的 GPU。GB202 是 NVIDIA 基于 Blackwell 架构的旗舰 GPU 产品，为游戏、内容创作和 AI 领域的顶级发烧友图形市场提供革命性性能。

GB202 完整芯片规格。完整的 GB202 芯片由922亿个晶体管组成，包含12个 GPC、96个 TPC、192个 SM 和16个32位内存控制器（总计512位）。由于每个 SM 包含128个 FP32 CUDA 核心，完整芯片包含24,576个 CUDA 核心，以及192个 RT 核心、768个 Tensor 核心、768个纹理单元和192个 ROP。内存子系统包括 24,576 KB L1 缓存、49,152 KB 寄存器文件和 131,072 KB L2 缓存。

GeForce RTX 5090 规格

首款 GB202 产品。首款使用 GB202 GPU 的 GeForce RTX 50 系列产品是 GeForce RTX 5090。下方比较了 GeForce RTX 5090、4090 和 3090 的规格。

表 3. GeForce RTX 5090 vs GeForce RTX 4090 vs GeForce RTX 3090 规格

附录 B: Blackwell GB203 GPU

GB203 高端 GPU 架构。GB203 GPU 是 NVIDIA 面向高端图形市场的产品。GB203 保留了 GB202 中的所有关键特性，包括 Blackwell SM 引入的所有创新，如 Blackwell 的第四代 RT Core 和第五代 Tensor Core，以及 DLSS 4 和新的 AI 游戏功能。

GB203 完整芯片规格。完整的 GB203 芯片由456亿个晶体管组成，包含7个 GPC、42个 TPC、84个 SM 和8个32位内存控制器（总计256位）。由于每个 SM 包含128个 FP32 CUDA 核心，完整芯片包含10,752个 CUDA 核心，以及84个 RT 核心、336个 Tensor 核心、336个纹理单元和112个 ROP。内存子系统包括 10,752 KB L1 缓存、21,504 KB 寄存器文件和 65,536 KB L2 缓存。

GeForce RTX 5080 规格

首款 GB203 产品。首款使用 GB203 GPU 的 GeForce RTX 50 系列产品是 GeForce RTX 5080。下方比较了 GeForce RTX 5080、4080 和 3080 的规格。

表 4. GeForce RTX 5080 vs GeForce RTX 4080 vs GeForce RTX 3080 规格

GeForce RTX 5070 Ti 规格

第二款 GB203 产品。第二款使用 GB203 GPU 的 GeForce RTX 50 系列产品是 GeForce RTX 5070 Ti。下方比较了 GeForce RTX 5070 Ti、4070 Ti 和 3070 Ti 的规格。

表 5. GeForce RTX 5070 Ti vs GeForce RTX 4070 Ti vs GeForce RTX 3070 Ti 规格

附录 C: Blackwell GB205 GPU

GB205 主流性能 GPU 架构。Ada GB205 GPU 是希望体验 NVIDIA 随 Blackwell GPU 架构引入新功能的游戏玩家、内容创作者和直播者的完美切入点。GB205 GPU 专为性能级 GPU 市场量身定制，并包含了本文档前面讨论的 Blackwell GPU 架构引入的所有架构变化。

GB205 完整芯片规格。GB205 GPU 的完整实现包括5个 GPC、25个 TPC、50个 SM 和6个32位内存控制器（192位内存接口）。该芯片总共包含310亿个晶体管，6,400个 CUDA 核心、50个 RT 核心、200个 Tensor 核心、200个纹理单元和80个 ROP。内存子系统包含 6,400 KB L1 缓存、12,800 KB 寄存器文件和 49,152 KB L2 缓存。

GeForce RTX 5070 规格

GB205 产品规格对比。下方比较了基于 GB205 GPU 的 GeForce RTX 5070 与 RTX 4070 和 3070 的规格。

表 6. GeForce RTX 5070 vs GeForce RTX 4070 vs GeForce RTX 3070 规格