元鉴
返回中文阅读流

NVIDIA Developer Blog

利用 NVIDIA DOCA 芯片内安全技术推进面向智能体 AI 的 AI 基础设施

AI 时代正在推动一种新型基础设施的发展:AI 工厂将数据转化为智能,供以前所未有的方式运行的自主 AI 智能体使用……

中文内容

已翻译official company source英文原文2026-06-05

AI 时代正在推动一种新型基础设施的发展:AI 工厂,它们将数据转化为智能,供自主 AI 智能体以前所未有的规模运行。AI 工厂由加速计算提供支持,使企业能够以更高的速度和效率训练、微调和部署 AI。

这种新型基础设施也引入了一个全新的攻击面,横跨基础设施、软件供应链、模型、数据,以及拥有越来越高行动权限的自主智能体。随着智能体式 AI 的采用加速,对手正越来越多地瞄准 AI 基础设施及其所支撑的应用,对关键任务系统的机密性、完整性和可用性带来新的风险。

传统安全架构并非为 AI 工厂的规模、复杂性和性能需求而设计。保护这种新型基础设施需要分布式、全栈且加速的安全能力。

本文介绍 NVIDIA BlueField 数据处理单元(DPU)和 NVIDIA DOCA 如何通过运行时检测、数据访问控制以及加速的网络执行来保护 AI 工厂,从而在 AI 规模下保护 AI 基础设施、工作负载、智能体和数据。

硅内安全如何改变传统安全模型?

NVIDIA BlueField DPU 专为 AI 基础设施打造,将高性能网络、可编程计算、硬件加速和高级安全能力整合到一个嵌入每个 AI 工厂计算节点的单一平台中。不同于依赖主机系统软件的传统安全方法,BlueField 建立了一个由硬件强制执行、位于硅内且独立于工作负载的安全层。

BlueField 在其自身的可信执行域内运行,将基础设施和安全服务与主机系统隔离开来。即使主机或工作负载遭到入侵,监控、策略执行和遥测仍会继续运行。由于安全功能始终与其所保护的系统保持隔离,攻击者无法篡改或绕过由 BlueField 强制执行的基础设施安全策略。

这种架构从根本上改变了传统安全模型。传统端点保护与其所保护的环境共享相同的信任边界和系统资源,因此当主机遭到攻陷时,安全软件容易受到篡改、规避或禁用。通过将安全处理卸载到 BlueField 硅片上,它能够提供具有韧性的全栈保护,同时不消耗主机计算资源,也不与 AI 工作负载竞争——从而保持峰值基础设施效率和 AI 性能。

Image of the NVIDIA BlueField-4 DPU (left) with icons representing its in-silicon security operating at AI agent speed (right).Image of the NVIDIA BlueField-4 DPU (left) with icons representing its in-silicon security operating at AI agent speed (right).
图 1. NVIDIA BlueField-4 DPU 提供在硅片中运行的安全能力,以 AI 智能体的速度运作

NVIDIA BlueField 和 DOCA 如何保护整个 AI 工厂

借助 NVIDIA Vera Rubin 平台,安全能力分布在整个 AI 工厂中,并直接内置于基础设施层。NVIDIA BlueField-4 处理器嵌入到每个计算和存储系统中,包括 NVIDIA Vera Rubin NVL72 计算托盘、Vera CPU 计算托盘、LPX 系统以及 Vera BlueField-4 STX 存储系统。这在整个平台上建立了一致的、由硬件强制执行的安全基础。

基于 BlueField-4 芯片构建的一类全新 NVIDIA DOCA 安全能力,将保护扩展到整个 AI 生命周期以及 Vera Rubin 平台。无论是保护 AI 模型、上下文记忆、数据集,还是运行时交互,BlueField 都能保护任何数据类型、任何工作负载和任何智能体。这包括保护自主智能体本身,并防御 AI 工厂中在推理、训练和新兴智能体式 AI 工作流中运行、权限日益提升的智能体。

NVIDIA DOCA 安全栈为保护整个 AI 工厂提供了统一框架。借助 BlueField-4 加速,DOCA 可实现比纯软件无智能体方法快高达 1,000 倍的运行时威胁检测,同时以最高 800 Gb/s 的速度执行网络和文件访问策略。这使安全能力能够以 AI 的速度和规模运行。

Diagram of NVIDIA Vera Rubin NVL72 for large scale AI, NVIDIA Groq 3 LPX for AI inference acceleration, NVIDIA CPU for AI agents, NVIDIA Vera BlueField-4 STX for AI storage, and NVIDIA Spectrum-6 SPX for AI networking, funneling into NVIDIADiagram of NVIDIA Vera Rubin NVL72 for large scale AI, NVIDIA Groq 3 LPX for AI inference acceleration, NVIDIA CPU for AI agents, NVIDIA Vera BlueField-4 STX for AI storage, and NVIDIA Spectrum-6 SPX for AI networking, funneling into NVIDIA
图 2. NVIDIA 端到端 AI 与安全架构延伸覆盖整个智能体式 AI 工厂

DOCA 安全栈包括 DOCA Argus、DOCA Vault 和 DOCA Flow,它们提供专门能力,涵盖运行时威胁检测、面向基于文件的存储的零信任访问,以及高速策略网络执行。这些框架共同建立了一套稳健的安全架构,用于保护 AI 工厂中的 AI 基础设施、工作负载、智能体和数据。

与 NVIDIA AI 集成后,BlueField 将遥测和安全数据流式传输到 GPU 加速系统,用于 AI 驱动的分析,生成可执行的安全情报,从而能够动态调整防护,并直接在 DPU 上执行策略。其结果是一个为智能体 AI 的速度、规模和复杂性而构建的持续学习型安全架构。

DOCA Argus 如何检测 AI 工作负载中的威胁?

DOCA Argus 是运行时威胁检测微服务,可在整个 AI 工厂中提供实时可见性和态势感知。Argus 是 DOCA 安全栈的基础。

DOCA Argus 运行在 BlueField 数据和存储处理器上,通过高级内存分析在运行时持续观察工作负载行为,使组织能够在不影响 AI 工作负载性能的情况下检测威胁、监控完整性并了解运行状态。

不同于传统的基于主机的安全方法,DOCA Argus 独立于其所保护的计算节点运行。通过利用 BlueField 硬件隔离且可证明的执行环境以及 DOCA 直接内存访问能力,Argus 可安全访问易失性主机内存中的特定片段——这是系统活动的权威事实来源——而无需依赖软件代理或消耗主机 CPU 资源。通过零拷贝内存访问技术,这一检查过程不会干扰应用程序或 AI 性能。

DOCA Argus 会自动识别主机系统上运行的 Linux 内核版本,并应用特定于内核的内存映射,以定位分析所需的精确内存结构。该平台同时支持 x86 和 Arm64 架构,可直接从主机内存结构中收集低层遥测数据,并将原始内存数据转化为有意义的运行上下文,包括对进程、线程、执行状态、工作负载活动和系统行为的可见性。

策略引擎持续分析所收集的遥测数据,以识别有意义的运营和安全信号,同时过滤无关活动。这使其能够实时了解系统行为、攻击指标以及异常运行时状况。安全发现被归类为事件和警报:事件提供运营感知和上下文可见性;警报则表示需要调查或响应的即时威胁或可疑行为。

通过持续分析内存中的状态变化和行为异常,DOCA Argus 无需依赖传统的基于主机的代理,即可提供持续的运行时监控。由于安全控制独立于主机运行,即使工作负载或操作系统受到破坏,检测能力也能保持完好。同时,持续收集取证证据有助于调查潜在事件,并支持事后分析。

DOCA Argus architecture diagram showing a BlueField-4 DPU performing real-time memory analysis on a host OS—inspecting processes, network connections, file descriptors, and binary hashes—to generate security alerts and events. Detections arDOCA Argus architecture diagram showing a BlueField-4 DPU performing real-time memory analysis on a host OS—inspecting processes, network connections, file descriptors, and binary hashes—to generate security alerts and events. Detections ar
图 3. DOCA Argus 监控 AI 威胁检测

AI 的运行时完整性监控

AI 应用通常以容器形式部署,其中由同一镜像实例化的工作负载预期会表现出一致且可预测的行为。DOCA Argus 利用这种一致性为 AI 工作负载建立行为画像,从而实现对偏差的实时监控,这些偏差可能表明存在入侵、未经授权的活动或恶意行为。

DOCA Argus 通过监控运行时正在执行的内容、执行方式以及其正在交互的对象,持续验证运行时完整性。这包括将二进制文件的行为和属性与预期的运行时清单进行比较,通过 SHA-256 哈希验证完整性,分析命令行参数和执行路径等执行上下文,并监控与线程、库、文件系统、网络和内存的交互,以验证工作负载是否按预期运行。

该平台提供进程级的文件访问和网络活动可见性,持续监控哪些文件被访问、由哪些进程访问以及执行了哪些操作。系统会分析入站和出站网络连接,以确保工作负载保持预期的通信模式,并且不会表现出可疑行为。

通过将实时运行时活动与既定行为基线进行比较,DOCA Argus 可以实时识别完整性违规和入侵指标。检测能力包括例如未授权进程执行、未授权库使用、漂移检测、bash shell 执行、反向 shell 活动,以及与入侵或恶意行为相关的其他运行时异常。

AI 发现与暴露面管理

DOCA Argus 还为整个 AI 工厂的 AI 发现与暴露面管理提供基础可见性层。该平台持续实时识别、映射并为 AI 基础设施、工作负载及其关系提供上下文。

这包括跨容器(包括 Kata containers)、虚拟机和裸机系统的工作负载态势感知,以及映射基础设施组件之间的关系,例如容器到 POD、容器到虚拟机,以及容器到操作系统的依赖关系。

通过使用容器镜像哈希,DOCA Argus 可以将运行时工件与公开可用的代码库和企业内部软件清单进行关联,从而帮助识别已部署的 AI 软件、模型和自主代理。借助 DOCA Argus 遥测,组织可以了解哪些 AI 组件正在运行、它们部署在何处,以及它们如何在整个环境中交互。

DOCA Argus 还可以通过分析已执行二进制文件和已加载库的 SHA-256 哈希,支持被动漏洞管理,帮助识别可能存在漏洞的软件组件。

将 AI 处理集成到网络安全运营中

DOCA Argus 通过标准遥测导出机制(包括 Fluent Bit 和 Vector)与现有网络安全生态系统无缝集成,使组织能够将安全遥测流式传输到 SIEM、SOAR、XDR 平台和企业数据湖中,以进行丰富化处理和分析。

网络安全团队可以将现有的分析、关联引擎、威胁情报和自动化事件响应工作流无缝扩展到 AI 环境中,而无需进行重大的架构变更。网络安全提供商可以将 DOCA Argus 遥测数据与来自其自身传感器的数据一并摄取和规范化,从而使 AI 工作负载和加速基础设施能够通过与传统环境相同的运营视角进行监控,用于威胁检测和调查。

重要的是,DOCA Argus 通过将提取的遥测数据限制在运营和安全相关信息范围内来保护隐私,而不会暴露个人身份信息(PII)。

DOCA Argus 运行在单个 BlueField 处理器上,可以为整个计算节点提供全面的运行时监控和威胁检测,以极低的运营开销提供基础设施级别的可见性和保护。结合 BlueField 的片上安全架构,DOCA Argus 使企业和云端 AI 工厂建设者能够在不牺牲性能、效率或 AI 吞吐量的情况下,大规模保护任何工作负载。

DOCA Vault 如何实现实时数据访问控制?

DOCA Vault 是一个专为基于文件的 AI 原生存储而构建的数据安全框架,可在整个 AI 工厂中对数据访问方式进行实时控制。DOCA Vault 直接在硅层执行细粒度授权策略,独立于主机操作系统和存储平台。

这为基于文件的存储提供了零信任访问层,确保只有获得授权的 AI 工作负载进程——包括代理、训练作业、推理服务和 AI 应用程序——才能访问运行所需的特定数据,并且只能执行明确允许的操作。

与依赖主机系统执行策略的传统访问控制不同,DOCA Vault 与存储访问请求以内联方式运行,即使主机操作系统、应用程序或存储层遭到攻陷,也能维持策略执行。该架构使企业能够安全地扩展多代理 AI 环境,同时在异构存储基础设施中保持一致的安全控制。

DOCA Vault 与 DOCA Argus 和 DOCA SNAP(通过 DOCA Device Emulation SDK)集成,以提供安全、策略驱动的存储访问所需的可见性和执行能力。DOCA SNAP 通过在 PCIe 总线上模拟本地驱动器,将网络存储作为本地文件系统设备呈现给主机系统。因此,操作系统和虚拟机监控程序可继续使用标准存储驱动程序,而不会察觉请求正通过由 BlueField 加速的存储框架被透明地重定向。

该架构允许在数据访问发生之前拦截并评估文件访问请求。DOCA Vault 使用从 DOCA Argus 收集的上下文遥测信息来丰富存储请求,从而详细了解发起请求的进程、目标文件以及所请求的操作,例如 OPEN、READ 或 WRITE。这些上下文信号使 DOCA Vault 能够执行高度精细的授权策略,确保只有正确的工作负载进程以适当的权限访问正确的文件。

Architecture diagram showing DOCA Argus and DOCA Vault running on a BlueField-4 DPU, performing real-time memory analysis on a host OS to detect threats and generate security alerts. Detections are processed locally by an AI/ML module and fArchitecture diagram showing DOCA Argus and DOCA Vault running on a BlueField-4 DPU, performing real-time memory analysis on a host OS to detect threats and generate security alerts. Detections are processed locally by an AI/ML module and f
图 4. DOCA Vault 数据安全框架专为基于文件的 AI 原生存储而构建

DOCA Vault 还通过对 AI 工作负载和存储环境强制执行运行时完整性控制,将保护范围扩展到传统授权之外。细粒度策略可以限制允许执行哪些程序,防止未经授权的文件创建,限制运行时漂移,并阻止未经授权的模型或数据外泄。通过严格管控文件访问行为,Vault 显著减少了攻击者在获得对工作负载或容器的初始访问权限后能够执行的操作。

在多智能体 AI 系统中,智能体越来越多地自主访问共享数据集、内存和模型,这种级别的控制变得尤为重要。未经授权或意外的文件活动会被实时阻止,并可作为强有力的失陷指标,帮助组织在恶意行为蔓延到整个 AI 工厂之前检测到它。

DOCA Vault 将存储安全直接嵌入基础设施层,使企业能够在不牺牲性能的情况下保护敏感数据集、AI 模型、上下文记忆和知识产权。Vault 在 BlueField-4 上以内联方式运行,可在保持最大 AI 吞吐量和应用效率的同时提供实时授权和保护。

DOCA Flow 如何加速高级安全服务?

DOCA Flow 是 DOCA 软件平台中的一项基础库,使开发者和网络安全提供商能够在 BlueField 处理器上创建高性能、硬件加速的数据包处理流水线。通过可编程 API,开发者可以定义直接在网络硬件中执行的数据包处理“管道”,将网络和安全操作从主机 CPU 卸载,同时保持超低延迟和高吞吐量。

通过直接在硅芯片中执行数据包检查、加密、过滤和策略执行,DOCA Flow 使网络安全能够以 AI 的速度和规模运行,而不影响应用程序或 AI 工作负载的性能。

DOCA Flow 的核心用途之一是对 BlueField 处理器进行编程,使其作为具备内置连接跟踪功能的高性能第 4 层防火墙运行,从而能够对整个 AI 工厂的前端和后端流量进行精细化控制。这使组织能够实时执行网络分段、隔离工作负载,并防止未经授权的通信路径——包括加密流量。

DOCA Flow 使网络安全提供商能够直接在 BlueField 上加速高级安全服务。这包括第 7 层防火墙、AI 安全网关、应用感知检查,以及专为加速基础设施和智能体 AI 环境构建的策略执行服务。

随着 AI 工厂扩展以支持日益分布式和自主的工作负载,网络通信成为关键攻击面。DOCA Flow 支持直接在基础设施层内执行安全策略,防止威胁在系统之间横向传播,同时保持大规模 AI 训练和推理所需的线速性能与效率。

开始使用 NVIDIA DOCA 保护代理式 AI 工厂安全

尽管 NVIDIA DOCA 安全栈的每个组件都能独立提供强大的安全能力,但 DOCA Argus、DOCA Vault 和 DOCA Flow 结合在一起,为保护整个 AI 工厂和代理式 AI 生命周期建立了统一的芯片内安全框架。该安全栈结合了运行时可见性、零信任数据保护和加速型网络执行能力,在不影响性能或可扩展性的情况下,为 AI 基础设施、工作负载、代理和数据提供端到端安全保护。

这些可互操作服务构建为在 NVIDIA BlueField 处理器上协同运行,共享遥测数据、策略上下文和执行能力,从而为基础设施、工作负载、数据和网络通信提供协调一致的保护。

其结果是一种面向智能体 AI 的安全内生架构:它能够持续验证信任、以基础设施级速度执行策略,并以现代加速计算所要求的规模和性能保护 AI 工厂。要了解更多信息,请参阅《Build Secure AI Infrastructure with DOCA》,并深入了解 NVIDIA DOCA 和加速基础设施。

欢迎参加 NVIDIA 创始人兼首席执行官 Jensen Huang 的 NVIDIA GTC Taipei 2026 主题演讲,了解更多关于 AI 基础设施未来的信息。

Like

标签

原文标题

Advancing AI Infrastructure for Agentic AI with NVIDIA DOCA In-Silicon Security