中文内容
AI 集成正在重新定义主流企业应用,从 Microsoft Office 等生产力软件到更复杂的设计和工程工具。这一转变要求现代数据中心超越单一用途的孤岛式架构。
对于开发者而言,获得专用 GPU 计算资源往往可能成为瓶颈。虚拟机(VM)通过提供安全、隔离且可扩展的环境,部分解决了这一挑战,并可根据特定项目需求进行定制。然而,将整块物理 GPU 专用于单个 VM,对于混合型或轻量级工作负载而言效率极低。
这正是 NVIDIA Multi-Instance GPU(MIG)技术变得至关重要的原因。借助 MIG,单个物理 GPU 会在硬件层面被划分为多个完全独立的实例,每个实例都拥有有保障的内存、缓存和计算核心。对于开发团队而言,这确保了可预测且不打折扣的服务质量(QoS)。这意味着多名开发者可以在同一台物理服务器上同时训练 AI 模型、运行仿真或渲染图形,而无需争抢资源,也不会相互干扰彼此的工作负载。
NVIDIA RTX PRO 4500 Blackwell Server Edition GPU 配备 32 GB 高速 GDDR7 内存,并支持最多两个 MIG 实例;与新发布的 NVIDIA vGPU 20 软件一起,可显著提升性能,加速虚拟化企业数据中心中的多样化工作负载。两者结合,可同时支持从日常生产力应用到轻量级 AI 开发的各种任务。
本文将介绍如何使用 NVIDIA vGPU 和 NVIDIA RTX PRO 4500 Blackwell Server Edition 部署虚拟机(VM)。内容涵盖使用 vGPU 设置 MIG、企业工作负载规模配置、性能对比以及补充功能。
为 vGPU 配置 RTX PRO 4500 Blackwell Server Edition
采用 MIG 技术的 RTX PRO 4500 Blackwell Server Edition GPU 为虚拟化工作负载带来革新。该解决方案允许将单个物理 GPU 安全地划分为两个独立的 GPU 实例,每个实例提供专用的 16 GB GPU 帧缓冲区。这使管理员能够精确分配专用 GPU 资源,确保为多样化的虚拟机提供有保障的服务质量。
要跟随本文中的教程进行操作,请确保你的环境满足表 1 中列出的核心要求。本教程使用 VMware vSphere 来设置 MIG 和 vGPU。
为 vGPU 和 MIG 配置文件配置 vSphere
本步骤将介绍配置虚拟机监控程序设置以启用 vGPU 和混合配置文件功能的过程。随后,将一个 4 GB 配置文件附加到 RTX PRO 4500 Blackwell Server Edition GPU 的一个 MIG 切片。本教程中主机上有三台虚拟机。将配置一台带有 4Q 配置文件的 Windows 11 虚拟机来演示该过程。请注意,MIG 内的时间切片功能很快将在 VMware Cloud Foundation (VCF) 上得到支持。
从 vSphere Web 界面开始。
- 选择主机:导航到运行 RTX PRO 4500 Blackwell Server Edition GPU 的 ESXi 主机
- 配置 PCI 设备:导航到配置 -> 硬件 -> PCI 设备
- 查找 GPU:在 PCI 设备列表中找到 RTX PRO 4500 Blackwell Server Edition 卡

配置 vGPU 模式和混合大小配置文件
接下来,调整 RTX PRO 4500 Blackwell Server Edition GPU 的图形设备设置。
- 设备类型:选择 Shared Direct
- vGPU 模式:选择 Mixed Size 可使不同大小的 vGPU 配置文件在同一个 MIG 实例上运行

附加一个由 MIG 支持的 vGPU 配置文件
完成初始虚拟机创建后,下一步是附加一个由 MIG 支持的 vGPU 配置文件。为此,首先确保虚拟机已关机。打开虚拟机设置,选择 Add New Device,然后选择 PCI Device。

在此场景中,分配一个由 MIG 切片支持的 vGPU 配置文件。RRO 4500 Blackwell Server Edition GPU 最多支持两个 MIG 切片。每个切片都可以容纳各种 vGPU 配置文件。
如图 4 所示,选择 nvidia_rtx_pro_4500_blackwell_dc-1-4q 配置文件,这是一个 4 GB 配置文件。配置文件名称中存在 _dc-1- 表示该单个 vGPU 由 RTX PRO 4500 Blackwell Server Edition GPU 上的一个 MIG 切片支持。

现在已配置好虚拟机设置,新的 PCI 设备会显示由 MIG 支持的 vGPU 配置文件(图 5)。现在可以启动该虚拟机。

为各种企业工作负载预置虚拟机
NVIDIA RTX PRO 4500 Blackwell Server Edition GPU 与 vGPU 软件搭配使用时,可构建一个灵活的虚拟平台,IT 组织能够利用该平台加速各种主流企业工作负载。作为演示,我们的团队配置了三台不同的虚拟机,每台虚拟机使用一个不同的由 MIG 支持的 vGPU 配置文件——3B、4Q 和 16Q。这些特定配置文件通常非常适合知识工作、入门级工作站以及数据科学或机器学习任务等应用。
如需进一步探索,请在 RTX PRO 4500 Blackwell GPU 所在的虚拟机管理程序主机上运行 nvidia-smi。nvidia-smi 实用程序是 NVIDIA System Management Interface,这是一款命令行工具,对于监控和管理 NVIDIA GPU 至关重要。在 ESXi 主机上运行它,管理员可以查看实时运行状态,包括 GPU 内存利用率、当前温度,以及至关重要的 MIG GPU 实例的配置和状态,以及在其中运行的 vGPU 配置文件。

MIG GPU 实例 1 正在运行 16Q vGPU 配置文件。MIG GPU 实例 2 托管 4Q vGPU 配置文件(如本示例的 nvidia-smi 输出所示)以及一个用于说明的 3B vGPU 配置文件。
需要安装相应的 Windows 11 vGPU 驱动程序。请务必禁用任何会干扰 NVIDIA 客户机驱动程序运行的软件模拟图形。使用 Omnissa Horizon 或 RDP 等远程协议连接到该虚拟机。连接后,打开 Windows Device Manager 并检查 Display Adapters。验证该虚拟机正在使用本教程前面配置的基于 MIG 的 vGPU 配置文件。

另一项实验涉及运行 dxdiag 实用程序。你可以通过 Windows 搜索栏访问此工具,或在命令提示符中输入 dxdiag。主图形设备应被识别为 RTX PRO 4500 Blackwell DC-1-4Q 配置文件。

NVIDIA 的 vGPU 解决方案架构师尝试在不同的虚拟机上同时运行两个应用程序,展示了配备 MIG 支持的 vGPU 的 RTX PRO 4500 Blackwell GPU 的多功能性。一台虚拟机托管了在 Linux Docker 容器中运行的基于 CUDA 的粒子模拟,另一台则为知识工作者提供 Windows 11 桌面。这两种截然不同的工作负载同时执行。

使用 NVIDIA RTX PRO 4500 Blackwell Server Edition 加速工作负载
对于目前使用 NVIDIA Ampere(A 系列)或 NVIDIA Ada Lovelace(L 系列)架构的组织而言,迁移到 NVIDIA RTX PRO 4500 Blackwell Server Edition 是一次变革性的跃升,而非边际提升,尤其适用于 AI 增强型应用。具体而言,在虚拟化环境中,与 NVIDIA L4 相比,RTX PRO 4500 Blackwell Server Edition 在 4K 配置下可为图形工作负载提供近 1.9 倍的加速。

即使组织在扩展其基础设施,企业知识工作者也需要响应迅速且具备交互性的桌面体验。RTX PRO 4500 Blackwell Server Edition GPU 提供了一个面向这些部署而设计的现代平台。Blackwell 架构引入了 MIG 等能力,可对 GPU 进行空间分区,为虚拟桌面提供可预测的性能、更高的资源利用率以及可靠的服务质量。除了原始计算能力和分区能力之外,RTX PRO 4500 Blackwell 还提供更高的 NVENC 吞吐量,从而实现更高效的远程显示流传输。
随着 vGPU 20.0 的发布,RTX PRO 4500 Blackwell Server Edition 已与主要虚拟化平台全面集成,为企业 IT 环境提供无缝、可直接部署的解决方案。此更新确保 IT 管理员能够在其数据中心部署中利用 RTX PRO 4500 Blackwell Server Edition 的架构改进。
vGPU 20 中的更多增强功能
除了支持 NVIDIA RTX PRO 4500 Blackwell Server Edition 之外,vGPU 20 还引入了以下增强功能,旨在加速现代应用程序,并确保虚拟化环境中的性能保持一致:
- 全新 NVIDIA AI Virtual Workstation (vWS) Toolkit:在运行于 NVIDIA RTX PRO 6000 Blackwell Server Edition 上的 vWS 环境中部署用于视频搜索与摘要(VSS)的 NVIDIA AI Blueprint
- 面向异构 vGPU 的固定份额调度:确保每个 vGPU 实例的调度时长和频率保持一致,不受物理 GPU 上其他实例的影响
- VergeOS 的 vGPU 支持:在私有云操作环境中,通过其 UI 自动执行 GPU 驱动程序管理、vGPU 配置文件分配和 MIG 配置
- Wayland 支持:一种用于基于 Linux 的虚拟机的显示服务器协议
- 支持 NVIDIA RTX PRO 6000 Blackwell Server Edition 的液冷 GPU
NVIDIA vGPU 和 NVIDIA Blackwell 在云端的可用性
GPU 虚拟化为企业提供了一种经济高效的方式,使其能够通过来自任何位置的虚拟机访问所需的 GPU 资源,并且只使用所需的容量。对于需要高 GPU 内存的高要求 AI 和视觉计算任务,主要云服务器提供商现在提供由 NVIDIA vGPU 和 NVIDIA Blackwell 驱动的实例:
- Google Cloud:宣布推出由 NVIDIA RTX PRO 6000 Blackwell Server Edition 驱动的分数式 G4 虚拟机预览版。这些支持 vGPU 的配置包括 12 GB、24 GB、48 GB 和 96 GB 配置文件,支持从流媒体服务到高保真 3D 渲染和机器人传感器仿真等用例。
- Microsoft Azure:由 NVIDIA RTX PRO 6000 驱动的 NCv6 系列将提供支持 NVIDIA vGPU 的部分 GPU 和完整 GPU 选项,最高可达双 96 GB。
开始使用 NVIDIA Blackwell 和 NVIDIA vGPU
利用 NVIDIA Blackwell 虚拟化的强大功能,改造您的数据中心,以适应企业计算融入 AI 的时代。借助 NVIDIA RTX PRO 4500 Blackwell Server Edition 和 NVIDIA vGPU 20,您的组织可以利用现有且经过验证的基础设施,支持不断扩展的各类应用,因为每个应用都越来越多地集成 AI 功能。
准备好感受差异了吗?申请免费 90 天 NVIDIA vGPU 软件试用。
标签


















