元鉴
返回中文阅读流

NVIDIA Developer Blog

为机密 AI 工厂构建零信任架构

AI 正从实验走向生产。然而,企业所需的大部分数据存在于公共云之外。这包括敏感信息,如……

中文内容

已翻译official company source英文原文2026-05-26

AI 正从实验阶段迈向生产环境。然而,企业所需的大多数数据都存在于公有云之外。这包括患者病历、市场研究数据以及蕴含企业知识的遗留系统等敏感信息。将私有数据用于 AI 模型也存在风险,且隐私与信任问题往往会减缓甚至阻碍 AI 的落地应用。

构建下一代 AI 工厂(专注于利用高性能基础设施规模化“生产”智能)必须建立在零信任基础之上。该安全架构通过硬件强制的可信执行环境(TEE)与密码学证明,消除了对底层主机基础设施的隐式信任。本文介绍了将零信任基础集成至 AI 工厂所需的全栈架构。

本地化部署要求通常使企业只能自行构建模型或使用开源模型来运行智能体 AI 工作负载。为兑现 AI 的愿景,企业必须在其自主运营的基础设施上部署多样化模型(包括专有模型),且在此过程中不得向管理员、虚拟机监控程序或主机操作系统暴露敏感数据或模型权重。另一方面,模型提供商也需要密码学层面的保障,以确保其知识产权即使在部署于自身受控环境之外时也无法被提取。

机密计算通过解决信任困境来提供这种保障,该困境要求每个角色在未经实际信任验证的情况下保持隐式信任。

he image shows data sources, data being transmitted across the network, and data in use between the GPU and CPU. Data in use is not protected with encryption.he image shows data sources, data being transmitted across the network, and data in use between the GPU and CPU. Data in use is not protected with encryption.
图1:未加密的使用中数据

AI工厂的信任困境

在共享基础设施上部署专有前沿模型,会在AI工厂的关键利益相关者之间引发三方信任困境:

  • 模型所有者与基础设施提供商:模型所有者需要保护其专有知识产权(模型权重、算法逻辑),且无法信任宿主机操作系统、虚拟机管理程序或root管理员不会检查、窃取或提取其模型。
  • 基础设施提供商与模型所有者/租户:基础设施提供商(负责运行硬件和Kubernetes集群的一方)无法确信模型所有者或租户的工作负载是无害的。该工作负载可能包含恶意代码,尝试提权,或突破宿主机安全边界。
  • 租户(数据所有者)与模型所有者及基础设施提供商:数据所有者必须确保其敏感且受监管的数据保持机密。他们无法信任基础设施提供商在运行期间不会查看数据,也无法信任模型提供商在推理过程中不会滥用或泄露数据。

这种相互缺乏信任的循环源于一个根本性问题:在传统的计算环境中,数据并未加密。这导致敏感数据和专有模型以明文形式暴露于内存及系统管理员面前。机密计算通过确保数据与模型在整个执行生命周期内始终保持加密保护状态来解决此问题。

An image shows data sources, data being transmitted across the network, and data in use between the GPU and CPU. With confidential computing, data in use is now protected with encryption.An image shows data sources, data being transmitted across the network, and data in use between the GPU and CPU. With confidential computing, data in use is now protected with encryption.
图2:机密计算对数据进行加密与保护

借助机密容器构建安全的 AI 工厂

机密计算提供了硬件基础。机密容器(CoCo)使其在 Kubernetes 中实现工程化落地。

CoCo 使 Kubernetes Pod 能够在基于硬件的 TEE 中运行,且无需重写应用程序。每个 Pod 不再共享主机内核,而是通过 Kata Containers 被透明地封装在一个轻量级、硬件隔离的虚拟机(VM)中——在维持云原生工作流的同时,严格实施强隔离边界。

对于模型提供商而言,最大的风险在于基础设施所有者窃取专有的模型权重。CoCo 通过将主机操作系统和虚拟机监控程序从信任模型中移除来解决此问题。模型在部署期间始终保持加密状态,直到硬件通过名为“远程证明”的流程以数学方式证实安全飞地的完整性后,密钥代理服务(KBS)才会将解密密钥释放至受保护内存中,从而确保模型绝不会以明文形式暴露给主机。

用于零信任 AI 工厂的开放参考架构

NVIDIA 为 CoCo 软件栈提供了一套参考架构。这是一套标准化蓝图——与 Confidential Containers 社区合作开发,并整合了 Kata Containers 等开源项目的组件——旨在在裸金属基础设施上构建零信任 AI 工厂。它定义了如何结合软硬件,以安全部署前沿模型,同时确保其数据或权重不会暴露给主机环境。

该架构的核心支柱包括:

  1. 硬件信任根:将 CPU TEE 与 NVIDIA 机密 GPU(如 NVIDIA Hopper 或 NVIDIA Blackwell)搭配使用,用于硬件加速且内存加密的 AI 工作负载。
  2. Kata Containers 运行时:将标准 Kubernetes Pod 封装于轻量级且硬件隔离的实用虚拟机(UVM)中,而非共享主机内核。
  3. 加固型微型客户机环境:采用无发行版的精简客户机操作系统,配备裁剪式根文件系统与 NVIDIA Runtime Container ( NVRC ) 以实现安全的初始化系统,从而缩减虚拟机内部的攻击面。
  4. 证明服务:在向客户机下发敏感的模型解密密钥或机密信息前,通过加密凭证对硬件进行验证。该过程需依托远程证明框架,且框架中应包含密钥代理服务器(KBS)。
  5. 机密工作负载生命周期:支持将加密且签名的镜像(容器、模型、制品)安全拉取并直接载入加密的 TEE 内存,防止数据在静态存储或传输过程中暴露;同时支持实施细粒度策略,以保障客户机与不可信基础设施层之间接口的安全。
  6. 原生 Kubernetes 与 GPU Operator 集成:使用标准 Kubernetes 原语和 NVIDIA GPU Operator 管理该堆栈,以实现“直接迁移”部署,无需重写部署清单或 AI 应用。
Image shows containers running on a Kubernetes platform. Trustee for attestation that uses hardware-based attestation, a key management service source, all working in conjunction to complete the workflow for attestation.Image shows containers running on a Kubernetes platform. Trustee for attestation that uses hardware-based attestation, a key management service source, all working in conjunction to complete the workflow for attestation.
图 3:CoCo 参考架构

威胁模型与信任边界

CoCo 在严格的威胁模型下运行。基础设施层(包括主机操作系统、虚拟机管理程序及云服务商)均被视为不可信。

与依赖基础设施管理员实施安全控制不同,CoCo 将信任边界转移至基于硬件的 TEE。AI 工作负载运行于加密的虚拟化环境中,主机无法检查其内存内容,且仅在执行环境证明自身完整性后才会释放机密数据。明确了解哪些内容受保护、哪些不受保护至关重要。

CoCo 的保护范围

CoCo 在执行过程中为机密性与完整性提供了强有力的保障,包括以下内容:

  1. 数据与模型保护:内存加密可防止主机在工作负载运行期间访问敏感数据、模型权重或推理载荷。
  2. 执行完整性:在释放机密数据或模型解密密钥之前,远程证明会验证工作负载是否运行于具备预期软件度量值的可信环境中。
  3. 安全的镜像与存储处理:容器镜像在加密的客户机环境中拉取和解包,确保主机基础设施无法检查或篡改应用代码或模型工件。
  4. 防范主机级访问:诸如内存检查、磁盘数据抓取或管理调试工具等主机特权操作无法暴露工作负载内容。

CoCo 不保护的内容

某些风险仍超出该架构的覆盖范围,例如:

  1. 应用程序漏洞:机密执行可确保经过验证的软件在安全区内运行,但无法防止应用程序内部存在的漏洞。
  2. 可用性攻击:平台保障机密性与完整性,但基础设施运营方仍可通过拒绝调度或终止工作负载来中断其运行。
  3. 非硬件 Enclave:该模型依赖于基于硬件的 TEE。它不适用于基于软件的隔离机制。
  4. 网络与存储安全:应用之间的网络连接不在 CoCo 信任边界的覆盖范围内。应用程序必须自行建立安全通道以防止传输中的数据暴露,并采用适当的机密存储机制。

基于复合证明的安全模型部署

此端到端工作流基于远程证明程序(RATS)架构,支持安全释放密钥,以便在 TEE 内部署加密模型:

  1. 启动:当工作负载需要机密信息(如模型解密密钥)时,Kata VM 内部的证明代理(AA)会与外部 KBS 启动身份验证握手。
  2. 证据收集:AA 从 TEE 收集加密硬件证据(例如 CPU 证明报告或 NVIDIA GPU 报告),并将其发送至 KBS。
  3. 委托验证:KBS 将此证据转发给证明服务(AS)。
  4. 校验:AS 对照安全策略以及参考值提供服务(RVPS)提供的“已知良好”度量值对该证据进行评估。对于专用硬件,AS 充当代理,并将校验工作委派给外部供应商服务(如 NVIDIA Remote Attestation Service (NRAS) 或 Intel Trust Authority)。
  5. 令牌颁发:若该环境能通过数学方式证明其安全且未被篡改,KBS 将向 guest 的 AA 返回证明结果令牌及会话 ID。
  6. 安全密钥释放:AA 使用该令牌请求指定密钥。KBS 从其后端(如密钥管理服务)检索该密钥,并将其安全传输至 guest VM 内的机密数据枢纽(CDH)。
  7. 执行:CDH 将明文密钥直接提供给您的 AI 容器,使模型仅在受保护内存内完成解密。

生态合作伙伴

NVIDIA 生态系统合作伙伴正将零信任 AI 工厂变为现实,合作伙伴包括 Red Hat、Intel、Anjuna Security、Fortanix、Edgeless Systems、OPAQUE Systems、Equity Labs、Sovereign AI、Corvex.ai、Dell、HPE、Lenovo、Cisco 和 Supermicro,旨在推进可投入生产的机密计算,助力企业充分释放 AI 的价值。

立即开始

如需了解更多信息,请参阅《NVIDIA 机密计算参考架构》。

Like

标签

原文标题

Building a Zero-Trust Architecture for Confidential AI Factories