元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-26

全球各地的电信运营商正在基于 NVIDIA Cloud Partner（NCP）参考架构建设主权 AI 工厂，为政府、企业和初创公司提供具备适当控制、可信度和性能的本国 AI 基础设施访问能力。但仅靠基础设施并不能让你获得高利润率、可投入生产的企业 AI 服务。

模型规模和推理工作负载持续增长，推高了每次请求的 token 数量，而每一代新的加速计算又在降低每 token 成本。这些趋势叠加在一起，使得将 AI 经济价值推向更高层级变得更有价值——从销售 GPU 小时转向交付以 token 计量和计费的 AI 服务。

与此同时，企业并不想管理集群、运行时或模型权重。它们需要的是可投入生产的应用和模型 API，具备可预测的性能，按 token 消耗计量，并由与 AI 原生指标挂钩的服务级别协议（SLA）提供保障，例如每秒 token 数、首个 token 生成时间（TTFT）以及端到端查询延迟。

本文追溯了从按 GPU 小时计费的基础设施到按 token 计量的 AI 服务的发展路径，并概述了电信运营商从基础设施出租方演进为“token 工厂”所需的技术构建模块。这类“token 工厂”具备透明的、基于 token 的经济模型，使企业能够轻松采用，而无需自行运营底层基础设施。

构建电信 AI 云堆栈

Diagram of a telco sovereign AI stack with an NVIDIA‑powered AI factory on the left, a central metering and billing column that tracks GPU and token usage, and a telco AI services layer on the right exposing AI applications, APIs, and marke — 图 1. 电信主权 AI 架构，展示了由 NVIDIA 驱动的 AI 工厂、跨堆栈计量和计费，以及作为按 token 计量产品交付的电信 AI 服务

AI 可以理解为一个 5 层蛋糕——能源、芯片、基础设施、模型和应用。电信主权 AI 工厂位于能源和芯片层之上，并支撑基础设施层，提供由 NVIDIA 加速的计算、网络和存储，可安全托管模型和应用。

电信 AI 工厂始于 NVIDIA 认证的基础设施，以及一系列可供选择的软件合作伙伴，这些合作伙伴共同决定平台的经济和监管定位。这一基础层决定了计算即服务的成本，强制规定数据可驻留的位置，并控制共享环境中哪些租户可以运行哪些工作负载。

在实践中，它将原始 GPU 容量转化为安全的多租户计算能力，并可作为服务对外提供；随着电信运营商沿着技术栈向上移动——从计算即服务到令牌即服务（长期经济上行空间的大部分所在），其成本结构和资源占用为每个 token 的成本奠定了基准。

计算即服务：基础设施和平台

计算即服务（CaaS）是电信运营商将这块五层蛋糕中的能源、芯片和基础设施层变现的方式，把 NVIDIA 认证系统、CPU、GPU、NVLink、高速 InfiniBand 或 Ethernet 以及存储作为 GPU/基础设施即服务（IaaS）对外提供，客户可按小时租用，类似于传统云实例。

在此之上，基于 Kubernetes 的平台层将这些原始容量转化为托管环境，提供多租户集群、命名空间和 GPU 调度，使开发者能够部署容器和推理运行时，同时主要按 GPU 小时、节点小时和存储计费。

这一层对于灵活性、控制力和主权至关重要，但它使业务仍然锚定在按 GPU 每小时计费的模式上。真正的经济转变发生在电信运营商在其之上加入按 token 计量的模型和应用，并开始销售 AI 输出，而不仅仅是基础设施使用时长。

Token-as-a-Service：创建和消费按 token 计量的服务

Token-as-a-Service（TaaS）将电信运营商提升到这个五层蛋糕的模型层和应用层，在这里，价值以 token、API 调用和工作流来衡量，而不是以 GPU 小时来衡量。在这一层，来自 AI 工厂的 GPU 容量被打包成以这些相同单位进行计量、计费和治理的产品，收入不再受限于一块 GPU 可以出租多少小时，而取决于该技术栈能够以给定价格和 SLA 提供多少 token。

电信运营商通常从一组聚焦的、按 token 计量的服务组合开始，这些服务由 NVIDIA Nemotron、NVIDIA NIM 等开源模型以及蓝图提供支持，例如：

垂直领域 AI 应用（例如，面向本地语言和法规定制的客户服务 copilots 或知识助手）
用于文本、视觉、语音和智能体的模型与工具 API
面向微调模型和特定领域模型的推理即服务端点

客户通过 API 集成这些服务，并以符合其业务使用 AI 方式的单位付费——tokens、请求或工作流——而不是以不透明的基础设施指标付费。SLA 也随之转变：企业关注的不再是特定服务器的正常运行时间，而是模型或应用层面的延迟、可靠性和响应质量。

为简化这一层的服务创建和使用，许多电信运营商与 NVIDIA 认证的软件合作伙伴合作，开发 AI 开发者工作室和 AI 市场。

AI 开发者工作室用于设计、适配和运营这些按 token 计量的服务。数据科学家和开发者使用 NVIDIA NeMo 对基础模型进行微调，将其部署为基于安全 NIM 的端点，并将其连接到检索管道或智能体工作流。在 AI 工作室中，他们可以从精选目录中选择模型，用自己的企业数据对其进行微调，以提高准确性和相关性，并将其发布为可复用的 AI 资产——模型、智能体和蓝图——供开发者复用，而无需接触底层基础设施。

随后，AI 市场成为将这些资产转化为产品的店面。业务和应用负责人浏览 copilots、检索增强生成（RAG）应用、模型 SKU 和独立软件供应商（ISV）解决方案目录，然后只需点击几下即可订阅并部署它们。

在幕后，该平台会配置推理端点，并按输入和输出 token、API 调用或工作流执行次数计量使用量，自动执行配额、速率限制和 SLA。AI 开发者工作室和 AI 市场所赋能的 TaaS 共同将电信 AI 工厂从一组 GPU 转变为一系列主权化、按 token 计量的 AI 产品组合，企业可以开箱即用地采用这些产品。

Token 级计量与计费

要将这些能力转化为产品，电信运营商需要一个计量与计费层，将 token 作为一等信号，并将其与性能、治理和基础设施效率相连接。

KPI groupExamplesToken usageTokens per tenant, model, endpoint; input vs output; hourly/daily/monthly totalsPerformanceQPS, request counts, p50–p99 latency, throughput in tokens per secondReliabilityError rates tied to token volumeGovernancePer‑tenant quotas, rate limits, access/audits, policy signalsEconomicsTokens per GPU‑hour, per GPU type, tokens per dollar

表 1. 电信运营商在 NVIDIA 平台上跟踪的 Token 级使用量、性能、可靠性、治理和经济 KPI，用于为按 token 计量的 AI 服务定价、治理和优化

综合这些指标，电信运营商可以提供按每百万个 token 定价的套餐，跨租户执行用量管控，并基于真实的每 token 成本数据选择合适的 NVIDIA 平台 SKU 和服务价位。

随着时间推移，这种 token 级别的可见性会把 AI 工厂转变为真正的 token 工厂，在其中，技术栈中的每一项改进都以更低的每 token 成本以及更高、更可预测的毛利率来衡量。

将 AI 基础设施作为 token 工厂进行变现

Upward‑sloping curve showing revenue models evolving from IaaS compute‑as‑a‑service priced per GPU‑hour, through PaaS tiers, to SaaS model and AI app token‑as‑a‑service priced per tokens, requests, and apps — 图 2. 从 IaaS 计算即服务向上演进到 PaaS 和按 token 计量的 AIaaS，将 NVIDIA GPU 基础设施转化为更高价值的 AI 应用和 API

在按 GPU 每小时计费的模式中，收入受限于一块 GPU 可出租的小时数以及出租费率。你可以调整利用率和定价，但价值单位仍然是“每 GPU 小时多少美元”，因此硬件和软件的改进主要体现为降低小时价格的压力，而不是更高的利润率。

在令牌即服务模式中，同一块 GPU 的变现方式取决于它通过优化后的技术栈能够生成多少高质量令牌，以及给定的每百万令牌价格和 SLA。

从这个角度看，AI 工厂就变成了令牌工厂。对技术栈的每一项改进——更好的批处理、更智能的路由和调度、更高效的模型、更快的网络，以及消除 I/O 瓶颈的存储——要么提高每秒令牌数，要么降低每令牌成本。

收入随令牌吞吐量和每令牌价格而增长，而利润率则会随着每一代新的 NVIDIA 平台以及每一项软件优化而提升，而不仅仅依赖更高的小时租赁费率。

一个实际示例：按 GPU 小时计费与 TaaS

下方图 3 中的示例使用了简化假设，以展示从按 GPU 小时计费转向 TaaS 时经济性会如何变化。这些数字仅用于说明，并非规定性定价。

Bar chart for an H100‑class GPU comparing annual revenue per GPU in two models. The GPU‑per‑hour bar is about 18,400 USD per year, based on a 3 USD hourly rate at 70% utilization. The token‑as‑a‑service bar is much higher, at 157,680 USD pe — 图 3. 针对 H100 级 GPU，在按 GPU 小时计费模式与 token-as-a-service 模式下，每块 NVIDIA GPU 年收入的示意性比较；图中显示，将 token 变现而非出售原始 GPU 时间时，年收入更高。

按 GPU 小时计费模式：假设一个 H100 级实例的租用价格约为每小时 3 USD。按全年平均利用率 70% 计算，每块 GPU 的年收入约为 18,400 USD。在这种模式下，你主要调整的是利用率和小时价格——你仍然是在出售 GPU 上的时间，而不是 AI 输出。

TaaS 模型：现在假设你运行一个以吞吐量优化的中型模型，单块 H100 每小时可持续处理 3000 万个可计费 token。如果你按每 100 万个 token 收费 1 美元，那么这块 GPU 每小时具有 30 美元的 token 收入潜力。在 60% 的“token 活跃”利用率下，这相当于每小时约 18 美元的实际 token 收入，或每块 GPU 每年约 157,680 美元。

新一代 GPU 会放大这一效应。与上一代相比，NVIDIA GB200 NVL72 在每秒 token 数和每百万 token 成本方面实现了数量级提升；领先的推理服务提供商报告称，当他们将 Blackwell 与优化后的技术栈结合使用时，在真实工作负载上的每 token 成本最高可降低 10 倍。

当你在 token 层面而不是按每 GPU 小时进行变现时，这些节省最容易实现，因为更高的每秒 token 数和更低的每 token 成本会直接转化为按 token 计量服务更好的单位经济效益。

Alt Text: Bar chart comparing illustrative annual revenue per GPU for H100‑class and B200‑class GPUs in GPU‑per‑hour and token‑as‑a‑service models. The H100 and B200 GPU‑per‑hour bars are both about 18,400 USD per year, while the token‑as‑a — 图 4。H100 级和 B200 级 GPU 在按 GPU 每小时和 token 即服务模型下的示意性单 GPU 年收入，表明 Blackwell 代际吞吐量只有在 GPU 按 token 而不是按小时变现时才会产生额外收入

例如，如果一块 B200 级 GPU 在相同价格（每 100 万个 token 收费 1 USD）和 60% token 活跃利用率下，将有效 token 吞吐量从每小时 3000 万个提升至 6000 万个可计费 token，那么每块 GPU 的年度 token 即服务收入将从 157,680 USD 增加到约 315,360 USD。

在按 GPU 小时计费的模式中，这一额外吞吐量不会体现为新增收入；但在 token 即服务模式中，它会在相同 GPU 占用规模下直接转化为更高收入，并随着每 token 成本改善而带来更好的利润率。

电信运营商下一步走向何方

对于已经投资由 NVIDIA 驱动的主权 AI 工厂的电信运营商而言，下一步是迅速向上延伸技术栈——从 AI 基础设施迈向 AI 服务——并使其商业模式与 AI token 经济保持一致。

在实践中，这意味着要超越 GPU 集群，搭建由 NVIDIA 认证软件提供商支持的 AI 云栈，以便编排 GPU、执行多租户策略，并将 token 级别的使用量与计费、SLA 和治理相连接。例如，Rafay 等合作伙伴已经在帮助电信运营商在主权基础设施上推出按 token 计量的 AI 服务，这为这种方法契合真实企业需求和用例提供了早期证据。

在此基础上，电信运营商可以推出按 token 计量的 AI 服务：AI 工作室，让团队使用 NVIDIA NIM 和 NeMo 构建并适配模型；市场，将这些模型和应用作为 SKU 提供；以及 API，供企业按每个 token 或每个工作流的方式使用。

通过将 token 视为核心经济单位——并由 NVIDIA 在每秒 token 数、每瓦 token 数和每 token 成本方面的进展提供支撑——电信运营商可以从连接和基础设施提供商演进为主权 AI 服务提供商，随着其 token 工厂的发展，收入和利润率也将实现规模化增长。

了解电信运营商如何将主权 AI 基础设施转化为其国家的实际收入与影响力。

在电信 AI 工厂上构建按 Token 计量的 AI 服务