Increasing Data Center Efficiency by Optimizing GPU Utilization Session ID: S51297

Milan Diebel, Sr Product Line Manager NVIDIA
Varun Nanda Kumar, Sr Product Manager NVIDIA

目录

演讲者

Page 2
Page 2

议程

Page 3
Page 3

NVIDIA 技术栈与数据中心平台

NVIDIA 技术栈概览

Page 4
Page 4

上图展示了 NVIDIA 从底层芯片到顶层 AI 应用框架的完整生态系统。
- 芯片 (Chips): GPU, CPU, DPU。
- 从云到边缘的机器人系统 (Cloud-to-Edge Datacenter-to-Robotic Systems): 包括 RTX, DGX, HGX, EGX, OVX, SuperPOD, AGX 等系统。
- 加速库 (Acceleration Libraries): 提供一系列优化的软件库,如 RAPIDS, Spark, cuDNN, TensorRT, Triton 等。
- 平台 (Platforms): 建立在库之上的三大平台:NVIDIA HPC, NVIDIA AI, NVIDIA OMNIVERSE。
- AI 应用框架 (AI Application Frameworks): 针对特定领域的框架,如 MONAI, MAXINE, NEMO, MERLIN, MORPHEUS, METROPOLIS, HOLOSCAN 等。

为实现最大灵活性的数据中心平台

Page 5
Page 5

该平台提供了灵活的 GPU 利用方式,从分区技术到多 GPU 解决方案。
- 数据中心产品组合: 核心产品包括 NVIDIA H100, L4, L40。
- 分区技术 (Partitioning Technologies):
- MIG (Multi-Instance GPU): 可将单个 GPU 划分为多个独立的实例(仅适用于 A100, H100, A30)。
- 使用 vGPU 进行虚拟化 (Virtualization with vGPU): 支持 GPU 虚拟化。
- 使用 CUDA MPS 的多进程 (Multi-Process with CUDA MPS): 允许多个 CUDA 进程共享单个 GPU。

OVX 和 Launchpad 上的新兴工作负载

Page 6
Page 6

本页展示了使用 NVIDIA RTX 的专业可视化用例。

Ada Lovelace 架构与产品

Page 7
Page 7

本节将介绍 Ada Lovelace 架构。

Ada Lovelace GPU 交付通用价值

Page 8
Page 8

Ada Lovelace 架构通过新设计、高级功能和通用性为各类应用带来价值。
- 新架构 (New Architecture):
- 新的流式多处理器 (New Streaming Multiprocessor)
- 第四代 Tensor Cores
- 第三代 RT Cores

Ada Lovelace 产品线

Page 9
Page 9

GTC2023 推出了两款基于 Ada Lovelace 架构的新产品:NVIDIA L4 和 L40。

性能分析

NVIDIA L40 视觉计算性能

Page 10
Page 10

该图表对比了 L40 与 A40 在最高性能 RTX 虚拟工作站场景下的相对性能。

NVIDIA L40 计算与视频性能

Page 11
Page 11

该图表对比了 L40 与 A40 在 HPC、深度学习推理和视频处理方面的相对性能。
- HPC: RTM: 性能最高提升至 1.6 倍
- DL Inference: 性能最高提升至 1.5 倍
- Video Streams: 性能最高提升至 3.7 倍

NVIDIA L4 视觉计算性能

Page 12
Page 12

该图表对比了 L4 与 T4 在 Omniverse、云游戏和虚拟工作站场景下的相对性能。
- Omniverse (1080p): 性能最高提升至 4.0 倍
- Cloud Gaming: 性能最高提升至 2.8 倍
- SPECviewperf 2020: 性能最高提升至 1.7 倍

NVIDIA L4 计算与视频性能

Page 13
Page 13

该图表对比了 L4 与 T4 在 HPC、深度学习推理和视频处理方面的相对性能。
- HPC: RTM: 性能最高提升至 1.4 倍
- DL Inference (BERT Large <10ms Latency): 性能最高提升至 2.4 倍
- Encode/Decode: 性能最高提升至 2.7 倍

分数 vGPU 性能

Page 14
Page 14

此图展示了通过虚拟 GPU (vGPU) 提高利用率的情况。图表显示,在单个 L40 GPU 上通过 vGPU 划分出多个虚拟机 (VM) 时,所有 VM 的性能总和可以超过单个 VM 满负荷运行时的性能(即超过 100%),这表明 GPU 资源得到了更充分的利用。例如,使用 L40-12Q 配置文件(每个 VM 12GB 显存)运行 4 个 VM 时,总性能达到了 131%。

虚拟工作站市场细分

Page 15
Page 15

本页分析了如何通过部署新的 L4 和 L40 GPU 来提高数据中心效率,用更少的基础设施完成更多工作。
- 入门级虚拟工作站:
- 使用 L4 替代 T4,每美元性能提升 40%,每用户成本降低 27%

数据中心效率与优化

为您的工作负载选择合适的GPU

Page 16
Page 16

该页面对比了 NVIDIA L4 和 NVIDIA L40 在四种不同工作负载场景下的适用性:

理解数据中心效率

Page 17
Page 17

要全面理解数据中心的效率,需要从三个层面进行评估,从而发现节省成本的机会:

  1. GPU 层面 (基础):

    • 仅比较 GPU 本身的性能。例如,L40 相较于 T4,每美元性能 (Perf/$) 提升 1.8 倍。
    • 这种评估方式无法正确体现 GPU 的全部价值。
  2. 服务器层面 (更好):

    • 在服务器级别进行比较,包含服务器和托管成本。例如,一台包含 8x L40 的服务器与一台包含 4x T4 的服务器相比,每美元性能提升 4.5 倍。
    • 这种评估方式能更好地突显 GPU 的完整价值。
  3. 数据中心层面 (最佳):

    • 在整个数据中心的尺度上进行评估,考虑功率限制 (Power Limitation) 或电源使用效率 (PUE)、机架空间限制 (Rack Space Limitation) 以及预算限制 (Budget Limitation) 等综合因素。

GPU 提升数据中心效率

Page 18
Page 18

通过采用 GPU,数据中心可以实现巨大的总拥有成本 (TCO) 节省和能源足迹的减少。以一个 2MW 数据中心的人工智能视频服务为例:

对比结果:

注:测量性能基于 CV-CUDA 端到端视频流水线,包括预处理、解码、推理(Seqformer)、编码、后处理。NVIDIA L4 (TensorRT 8.6) 对比 CPU (Platinum 8362, OpenCV 4.7, PyT inference)。系统配置请参考图片底部详细说明。

产品可用性

Page 19
Page 19

本节将介绍 NVIDIA L4 和 L40 的可用性情况。

Google Cloud Platform 宣布提供 NVIDIA L4

Page 20
Page 20

Google Cloud Platform (GCP) 现已提供搭载 NVIDIA L4 GPU 的实例。下表列出了 g2-standard 实例类型的详细配置:

Instance GPU count GPU Memory (GB) vCPU Default Memory (GB) Custom Memory range* (GB) Network BW (Gbps) [Optional] Local SSD (GB)
g2-standard-4 1 24 4 16 16-32 10 375
g2-standard-8 1 24 8 32 32-54 16 375
g2-standard-12 1 24 12 48 48-54 16 375
g2-standard-16 1 24 16 64 54-64 32 375
g2-standard-24 2 48 24 96 96-108 32 750
g2-standard-32 1 24 32 128 96-128 32 375
g2-standard-48 4 96 48 192 196-216 50 1,500
g2-standard-96 8 192 96 384 384-432 100 3,000

可用区域: us-central1 (Iowa), asia-southeast1 (Singapore), europe-west4 (Netherlands)。

在云端加速您的工作负载

Page 21
Page 21

各大主流云服务提供商均提供了丰富的 NVIDIA GPU 实例来加速不同类型的工作负载。

NVIDIA L4 在 Google Cloud 上被特别标注,是本次介绍的重点。

NVIDIA L4 和 NVIDIA L40 OEM 可用性

Page 22
Page 22

来自 20 多家合作伙伴的 120 款系统现已支持 NVIDIA L4 和 L40 GPU。

主要 OEM 合作伙伴及其支持的服务器型号包括:

总结

Page 23
Page 23

通过优化 GPU 利用率来提高数据中心效率,核心要点如下:

  1. Ada Lovelace 性能飞跃 (Ada Lovelace Performance Leap): 新架构带来了显著的性能提升。
  2. 选择正确的 GPU (Selecting the Right GPU): 根据具体工作负载在 NVIDIA L4 和 NVIDIA L40 之间做出选择。
  3. 优化数据中心 (Optimizing the Data Center): 在数据中心层面进行系统性优化,以实现最大化的效率和成本节约。

推荐会议

Page 24
Page 24

特色演讲 (FEATURED TALKS)