元鉴
返回中文阅读流

NVIDIA Developer Blog

与 NVIDIA 共建 AI Grid:在各处编排智能

AI 原生服务暴露出 AI 基础设施新瓶颈:需在规模化场景下提供确定性推理,而不只是峰值训练吞吐。

中文内容

已翻译official company source英文原文2026-05-26

AI 原生服务正在暴露 AI 基础设施中的一个新瓶颈:随着数百万用户、智能体和设备要求获得智能能力,挑战正从峰值训练吞吐量转向大规模提供确定性推理——可预测的延迟、抖动以及可持续的 token 经济性。

NVIDIA 在 GTC 2026 上宣布,电信运营商和分布式云提供商正在将其网络转型为 AI grids,在由区域 POP、中心局、城域枢纽和边缘位置组成的网格中嵌入加速计算,以满足 AI 原生服务的需求。

本文解释了 AI grids 如何通过在分布式、具备工作负载、资源和 KPI 感知能力的 AI 基础设施上运行推理,使实时、多模态和超个性化的 AI 体验能够大规模实现。

跨分布式站点的智能工作负载放置

NVIDIA AI Grid 参考设计为构建地理分布式、互联且统一编排的 AI 基础设施提供了统一框架。图 1 展示了现有网络资产如何汇聚成一个 AI Grid:

Figure 1. Topology view of an AI grid, panning centralized AI factories and distributed edge nodes across telco and CDN sites.Figure 1. Topology view of an AI grid, panning centralized AI factories and distributed edge nodes across telco and CDN sites.
图 1. AI Grid 的拓扑视图,横跨电信和 CDN 站点中的集中式 AI 工厂与分布式边缘节点。

该设计的一个关键方面是 AI Grid 控制平面,它将原本孤立的集群和区域转变为一个单一的可编程平台。其主要重点是智能地确定每个工作负载应在何处运行,以满足其 KPI:

  • KPI 感知路由,根据延迟要求、主权约束和成本来放置工作负载。
  • 资源感知型调度会持续考虑节点健康状况、利用率和配额,在用户感受到尾部延迟飙升之前,避免将负载置于过载或性能退化的站点。兼容的流量还会被引导至 KV-cache 命中概率高的节点,从而降低每个请求的 token 延迟和 GPU 周期消耗。
Diagram of an AI grid control plane receiving diverse workloads and routing them across multiple grid nodes based on latency, cost, policy, node health, and capacity, with KV-cache–aware routing optimizing model placement and reuse.Diagram of an AI grid control plane receiving diverse workloads and routing them across multiple grid nodes based on latency, cost, policy, node health, and capacity, with KV-cache–aware routing optimizing model placement and reuse.
图 2. AI 网格控制平面将分布式端点视为一个单一的逻辑平台,以实现面向工作负载和资源感知的路由。

最能从 AI 网格中受益的工作负载

对于延迟、带宽、个性化或主权成为一阶设计约束的应用而言,智能工作负载调度最为重要。

下表将这些工作负载类别映射到示例应用,以及它们为提供一致的用户体验和可持续的经济性而必须优化的关键绩效指标(KPI)。

Workload ClassExample ApplicationsTarget KPIReal‑time, latency‑sensitive control loopsPhysical AI (robots, sensors), conversational agents, AR/VR, wearablesEnd‑to‑end latency and jitter within SLAToken‑ and bandwidth‑intensive multimodal Vision and media AI workloads that can generate up to 100× more raw data than textNetwork bandwidth and egress economicsHyper‑personalized experiences at scalePer‑user recommendations, in‑app copilots, dynamic media insertionHigh concurrency within latency and cost budgetsSovereign and regulated data workloadsGovernment AI, healthcare, financial services, regulated enterprise dataData, models, and logs kept in‑jurisdiction
表 1. 受益于 AI grids 的 AI 工作负载类别,以及示例应用和主要优化目标。

AI grids 不仅加速了传统边缘应用,还解锁了一系列围绕实时生成和个性化构建的 AI 原生服务。以下各节说明 AI grids 如何大规模支持三类此类工作负载:语音、视觉和媒体。

用于语音的 AI Grid

为什么延迟对语音 AI 至关重要

人类水准的语音 AI 服务对端到端延迟极其敏感。当响应时间超过约 500 毫秒时,用户会明显感觉对话存在滞后。因此,在客户端满足这一首个 token 响应时间(TTFT)会成为一项硬性 SLO(服务等级目标)。

Diagram breaking down client TTFT into round-trip time, queueing latency, tokenization, prefill and decode, and voice activity detection, with emphasis on reducing network and queueing components by placing voice inference on edge grid nodeDiagram breaking down client TTFT into round-trip time, queueing latency, tokenization, prefill and decode, and voice activity detection, with emphasis on reducing network and queueing components by placing voice inference on edge grid node
图 3. 客户端首个 token 响应时间(TTFT)的分解,展示了在边缘部署 AI 网格如何降低语音交互的往返时间和排队延迟。

客户端的首个 token 响应时间(TTFT_Client)由五个组成部分相加而成:

  1. 网络往返时间(RTT):音频和 token 在用户与推理端点之间通过网络传输所需的时间
  2. 排队延迟:请求在开始执行之前,在 GPU 或服务上排队等待的时间。
  3. 计算延迟:分词:将传入音频转换为语音模型可处理的 token 所需的时间。这包括自动语音识别(ASR)和文本转语音(TTS)。预填充和解码:模型处理提示(预填充)并生成第一个 token(解码)所花费的时间
  4. 语音活动检测(VAD):检测用户何时开始和停止说话,以准确界定每一轮对话。
  5. RTT 和排队延迟在很大程度上取决于推理运行的位置,这使 AI grids 能够带来显著的延迟改善。

端到端延迟

Chart comparing end-to-end latency percentiles (baseline and burst, P50 through P99) for a voice small language model on RTX PRO 6000 GPUs deployed in a single centralized cluster versus a four‑node AI grid, illustrating that the AI grid maChart comparing end-to-end latency percentiles (baseline and burst, P50 through P99) for a voice small language model on RTX PRO 6000 GPUs deployed in a single centralized cluster versus a four‑node AI grid, illustrating that the AI grid ma
图 4. 在突发流量下,运行在 RTX PRO 6000 GPUs 上的语音小语言模型在集中式集群与四节点 AI grid 中的端到端延迟对比

上述来自 Comcast 的基准测试比较了 Personal AI 的同一个语音小语言模型(SLM)在两种架构中运行于 4 块 NVIDIA RTX PRO 6000 GPUs 上的表现:一种是单一集中式集群,另一种是分布在 4 个站点的 AI grid;两者都承受高度相关且并发会话的突发流量,这是语音 AI 服务压力最大的场景。

在所有测试场景中——从第 50 百分位(P50)的基线流量到第 99 百分位(P90)的突发流量——即使并发会话激增,AI 网格部署也能将语音交互的端到端延迟保持在 500 ms 目标范围内。这是通过将推理部署在区域边缘节点上实现的,从而缩短网络往返时间并降低排队延迟。

吞吐量和每 token 成本

该基准测试的另一项关键发现是相关突发流量下的吞吐量表现。在更高负载下,吞吐量并未下降,而是随着四个边缘节点并行吸收需求而增加,在突发情况下达到每秒 42,362 个 token,较基线提升 80.9%;而集中式部署在相同条件下吞吐量下降。

Chart showing tokens-per-second throughput for a voice small language model under baseline and burst conditions on a centralized cluster compared to a four‑node AI grid, with the grid scaling throughput upward as concurrent sessions increasChart showing tokens-per-second throughput for a voice small language model under baseline and burst conditions on a centralized cluster compared to a four‑node AI grid, with the grid scaling throughput upward as concurrent sessions increas
图 5. AI 网格和集中式部署架构在突发流量下的语音模型吞吐量

因此,在基线情况下,AI grid 上的推理每 token 成本比集中式部署低 52.8%;在突发负载下,随着分布式 GPU 利用率随负载提升而改善,这一差距扩大到每 token 成本低 76.1%。集中式集群将大量延迟预算消耗在 RTT 上,因此必须以较低利用率运行,以避免尾延迟违规;而 AI grid 部署能够保持较低 RTT,并可在相同延迟目标下安全地让 GPU 以更高强度运行。

Chart comparing normalized cost per token for voice inference on a centralized cluster and a four‑node AI grid at baseline and burst loads, illustrating that distributed edge deployment reduces cost as GPU utilization improves with traffic.Chart comparing normalized cost per token for voice inference on a centralized cluster and a four‑node AI grid at baseline and burst loads, illustrating that distributed edge deployment reduces cost as GPU utilization improves with traffic.
图 6. 集中式部署与 AI grid 部署的推理每 token 成本

在生产环境中,吞吐量和每 token 成本的改善都可能因模型选择、工作负载特征和实时网络条件而异。

用于视觉的 AI Grid

边缘的 Metropolis:从感知到行动

视觉 AI 工作负载传输的数据远多于基于文本的服务,在城市规模下往往会产生每秒数太比特的并发视频流量。要使其具备实用性,AI 基础设施必须将延迟保持在足够低的水平,以便实时响应;将原始视频保留在相应的司法管辖区内;并避免让网络回传成为系统的主要成本。为满足这些需求,NVIDIA Metropolis 视觉 AI 应用平台可以运行在边缘的 AI 网格节点上,位于运营商的司法管辖范围内,并部署在隔离的网络切片上。摄像头将视频流传输到附近节点,在那里模型会对个人身份信息进行匿名化处理,理解多路视频源中的场景,并触发交通改道或调度应急人员等行动。

网络切片、分辨率提升与带宽

在仅采用中心化云的部署中,视频数据需要经过多个网络跳点才能被处理并返回给运营商。每增加一个网络跳点所带来的物理距离都会引入固有延迟,并增加遇到故障或拥塞的可能性。

在更高效的设计中,运营方可以通过将边缘分析与按需升分辨率相结合来减少回传。例如,摄像头可以以 360p(约 2 Mbps)进行流式传输,Super Resolution 模型仅在运营人员需要检查场景时重建 4K 视图,因此全分辨率视频只会按需经过区域链路或骨干链路。

在 AI grid 上部署时,推理在本地边缘节点的 RTX PRO GPUs 上运行,只有轻量级警报和元数据会通过网络发送到集中式系统,用于全车队监控、跨站点关联以及更长期的分析。其结果是端到端响应时间持续更低且更可预测。

此外,网络切片可以为 Metropolis 流水线提供专用、隔离的带宽,用于安全关键事件和分析,确保安全关键视觉工作负载始终获得优先处理,并获得确定性的吞吐量和延迟,而无需对整个网络进行过度配置。

Diagram and metrics showing city‑scale camera feeds streaming to nearby AI grid edge nodes where Metropolis performs analytics, sending only structured events upstream, with examples such as reducing 25 Gbps of continuous 4K backhaul to aboDiagram and metrics showing city‑scale camera feeds streaming to nearby AI grid edge nodes where Metropolis performs analytics, sending only structured events upstream, with examples such as reducing 25 Gbps of continuous 4K backhaul to abo
图 7. 在 AI grid 边缘节点上运行 NVIDIA Metropolis 视觉 AI 流水线对带宽的影响

对于一个包含 1,000 台 4K 摄像机的代表性部署,从集中式处理转向边缘压缩,再转向边缘分析加超分辨率,可将连续骨干网负载从数十 Gbps 降至个位数低位 Gbps 范围。图 7 中所示数字仅为示例,会随摄像机设置、压缩配置文件、模型选择和实时网络状况而变化,但不同部署模式之间的相对节省预计将遵循相同模式。

面向媒体的 AI Grid

超个性化是一项基础设施挑战

超个性化是媒体 AI 走向连续化和按会话运行的场景——内容、叠加层、语言和推荐会针对每一位观众实时调整。这类工作负载的独特之处在于,其结果的价值会迅速过期:延迟的广告填充会造成抖动,错过播出窗口的体育赛事叠加层将变得无关紧要,而到达过慢的推荐会错失购买时机。下方表 2 重点列出了具有代表性的媒体 AI 用例、它们所受的时限约束,以及 AI 网格如何执行每个用例以保持在严格的时间预算内:

Use caseDeadlineConstraintAI Grid execution modelReal‑time ad insertion16 ms60 fps frame budgetContext sampled every few seconds; lightweight per‑frame shaders render deterministic fillsSports analytics overlays< 1 sBeat broadcast feedTelemetry transformed into overlays before the moment expires on airE‑commerce recommendations< 200 msBounce thresholdVector re‑ranking on edge nodes, explicitly prioritizing speed over deep reasoningLive video translation< 10 msAudio + caption syncASR, translation, and TTS run on‑net; edge placement holds audio, caption, and video in sync
表 2. 媒体 AI 用例、截止时间、约束条件,以及 AI 网格如何执行每项工作负载以满足严格的时序预算

Comcast 和 Decart 的基准测试验证了,AI 网格通过将计算资源部署到更靠近内容交付的位置、以更少的网络跳数和每一跳更低的争用来减少抖动,能够在规模化环境中持续满足此类截止时间。这带来了在区域内吸收相关性需求峰值的效果,并避免了通过集中式设施路由推理流量所带来的回传。

与突发性语音流量类似,将并发视频生成需求分散到多个边缘站点,使运营商能够将 GPU 推向更高利用率,进而提高吞吐量并降低交付每路流的有效成本。

媒体流水线如何在 AI 网格上运行

在 AI 网格上,媒体工作负载以低延迟流式流水线的形式在分布式边缘节点上运行,而不是作为集中式任务在远端云中运行。

NVIDIA Holoscan 协调这些网格节点之间的帧和音频片段流动——从采集到理解再到渲染——使实时广告插入、叠加层和个性化等阶段能够在不突破其帧预算或响应预算的情况下执行。

基于 NVIDIA Maxine 的服务在同一边缘节点上处理实时视频增强,而 NVIDIA Riva 和 LipSync 等语音与翻译服务则让多语言音频和视频保持同步,无需额外的网络跳转。

视频生成模型和出站流量经济性

视频生成模型产生的数据量显著高于纯文本 LLM。例如,Decart 的 Lucy 2 视频生成模型产生约 5.5 Mbps/sec 的数据。与基于文本的 LLM 相比,10 分钟的视频生成会话产生的数据量多出 825,000 倍,显著增加出站带宽。

Bar chart showing data egress per 10‑minute session in gigabytes for two workloads: an LLM with negligible text output and a Lucy 2 video‑generation model with 3.3 GB of output, highlighting that video generation produces vastly more egressBar chart showing data egress per 10‑minute session in gigabytes for two workloads: an LLM with negligible text output and a Lucy 2 video‑generation model with 3.3 GB of output, highlighting that video generation produces vastly more egress
图 8. 10 分钟会话的数据出站,对比 LLM 文本输出与视频生成模型输出

通过将视频生成带到更接近终端用户的位置,AI 网格使由 AI 驱动的媒体体验在个性化和并发规模增长的情况下依然具备经济可行性并具有沉浸感。

AI 原生服务需要 AI 网格

电信运营商和内容分发提供商正日益成为大规模交付 AI 原生服务推理的核心力量,使网络从被动管道转变为模型执行路径的一部分。通过在 AI 工厂和分布式边缘站点之间进行工作负载感知路由,运营商可以将语音、视觉和媒体等 AI 服务引导到合适的位置,使每个工作负载都满足其延迟、并发、成本和主权要求。

入门

探索 AI Grid 参考设计,进一步深入了解本文讨论的架构和部署模式。

Like

标签

原文标题

Building the AI Grid with NVIDIA: Orchestrating Intelligence Everywhere