元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-06-05

AI 智能体正在改变你与 PC 交互的方式。创作者、开发者和 AI 爱好者已经在广泛使用这些智能体，协助完成编码、视频编辑和内容管理等日常任务。

NVIDIA 与 Microsoft 正在携手，使下一代开发者能够在 Windows 平台上构建端侧智能体，并具备更简便的设置、原生安全性，以及与开发者已在使用的应用和工具的集成。

本文详细介绍了 NVIDIA 和 Microsoft 在 COMPUTEX 2026 期间的 NVIDIA GTC Taipei 以及 Microsoft Build 2026 上发布的新工具，以满足对智能体激增的需求。这些工具包括原生 Windows 上的交钥匙式智能体沙箱、速度提升 2 倍的智能体推理、来自 Nous Research 和 H Company 的新智能体应用与工具，以及 llama.cpp 和 ComfyUI 中增强的多 GPU 支持。本地 AI 开发栈现在已准备好与用户并行运行复杂的智能体式 AI 工作流。

如何使用 Microsoft eXecution Containers 和 NVIDIA OpenShell 保护本地智能体

在 Microsoft Build 上，Microsoft 宣布了一组安全原语，使代理能够执行代码、操作文件，并在内置身份和策略执行机制的支持下跨系统编排任务。Microsoft eXecution Containers（MXC）构成策略层，定义并实现隔离与遏制，同时依赖 Windows 操作系统的原生构造来应用这些策略。

对于开发者而言，这降低了一个关键门槛：与个人文件和应用交互的代理存在真实的提示注入风险，而 MXC 可确保它们无法访问整个系统。

NVIDIA 也正在与 Microsoft 合作，将基于 MXC 构建的 NVIDIA OpenShell 运行时引入 Windows。通过 OpenShell 集成 MXC，为开发者提供了一个易于集成的软件包，用于安全地部署自主、始终在线的代理，同时提供策略创建与管理、推理路由以及个人身份信息（PII）混淆等额外能力。

顶级代理式应用正寻求利用 MXC 和 OpenShell 来增强其在 Windows 中的安全性，其中包括流行的开源代理 OpenClaw 和 Hermes Agent。

NVIDIA RTX Spark 如何为个人 AI 代理提供动力？

本周早些时候，在 GTC Taipei 上，NVIDIA 发布了 NVIDIA RTX Spark 产品系列，包括为个人助手时代打造的小型台式机和笔记本电脑。这些台式机和笔记本电脑提供 1 petaflop 的 AI 算力、最高 128 GB 的内存，以及用于在日常工作同时运行大型模型的 CUDA 加速 AI 框架。

Microsoft 正在打造一款 RTX Spark 特别开发者版本——Surface RTX Spark Dev Box，预装了为开发者配置的修改版 Windows，并配备了入门所需的顶级开发者工具。要了解更多信息，请参阅 Building the next generation of devices for developers: Surface RTX Spark Dev Box。

NVIDIA NemoClaw、Hermes Agent 和 H Company 如何扩展代理能力？

用于构建自主 AI 智能体的 NVIDIA NemoClaw 现已通过 Linux 和 Windows Subsystem for Linux（WSL）支持所有 NVIDIA 客户端系统——GeForce RTX、NVIDIA RTX PRO、NVIDIA DGX Spark 以及适用于 Windows 的 NVIDIA DGX Station。这使你能够轻松设置智能体并将其置于沙盒中，同时配备为你的硬件精心挑选的优化本地模型。此次更新还包括对安装程序的增强，使安装更简单、更流畅。NemoClaw 现在还支持将运行 Hermes Agent 作为一个选项。

本周，Hermes Agent 还发布了原生 Windows 支持，包括命令行界面以及一款简洁时尚的新桌面应用程序。这简化了用户体验，同时让智能体更容易与原生 Windows 应用、API 和文件进行交互并加以使用。

此外，AI 研究与产品公司 H Company 发布了其新的 Holo 3.1 系列模型。这些模型针对 Computer Use 进行了调优，这是一种使智能体能够通过查看屏幕并点击来执行操作的模式，从而将智能体能力扩展到更广泛的应用。它们包含量化检查点，与 FP8 相比可降低 35% 的内存占用。该公司还宣布推出一个新的 Computer Use harness，支持本地模型，即将发布。NVIDIA 已帮助 H Company 优化其新模型和 harness，使其在 NVIDIA GPU 上实现超过 2 倍的性能提升。

NVIDIA 和 OSS 社区如何加速本地智能体 AI 的推理？

随着智能体每天 24 小时、每周 7 天运行并处理日益复杂的任务，高效的本地计算变得更加重要。NVIDIA 已与开源社区合作，增强面向智能体的顶级推理后端 llama.cpp 和 vLLM。

llama.cpp 现在在 Qwen 3.5 和 3.6 27B 稠密模型上实现了 2 倍性能提升，在 Qwen 3.5 和 3.6 35B 专家混合（MoE）模型上实现了 1.6 倍性能提升。以下两项技术使这一点成为可能：

多 Token 预测（MTP）：一种先进的推测性解码技术，其中较小的草稿模型会提前提出若干 token，由目标模型在单次前向传递中进行验证，从而在输出质量相同的情况下实现更快的吞吐量。MTP 对开发者来说最为实用，因为对于已经支持它的模型，它不需要额外训练。
程序化依赖启动（PDL）：此更新提供更快的解码性能。依赖内核可以在同一个 CUDA 流上并发执行。在此之前，单个 CUDA 流中的依赖内核必须顺序执行。

vLLM 已经采用了 MTP，但正在获得额外优化，使推理性能提升 2.6 倍。这些优化包括为 MoE 模型选择更好的 BF16 内核，以及通过改进 CUDA Graphs 降低运行时开销。

你现在可以通过 LM Studio、llama.cpp 和 vLLM 开始探索这些更新。

Bar chart showing throughput performance improvements. Three configurations are compared: Qwen3.6-35B on DGX Spark with vLLM improved 2.6x, Qwen3.6-27B on RTX 5090 with llama.cpp/LM Studio improved 2x, and Qwen3.6 35B on RTX 5090 with llama — 图 1. 在 NVIDIA DGX Spark 和 NVIDIA RTX 5090 上，本地智能体 AI 部署的整体吞吐性能得到提升

多 GPU 支持如何提升 RTX PC 的 AI 性能？

在本地运行 AI 的一种常见方式，是使用多个 GPU 来获得更多内存和算力。虽然 vLLM 等云端框架由于在数据中心中使用，已针对多 GPU 进行了良好优化，但 llama.cpp 和 PyTorch 中的 ComfyUI 实现等 PC 框架并未针对多 GPU 进行优化。

为了解决这一挑战，NVIDIA 与 llama.cpp 和 ComfyUI 合作，提升了配备两块同等 GPU 的 RTX PC 的性能。这使你能够运行更大的模型，并利用两块 GPU 的算力来获得更好的性能。

llama.cpp 现在支持张量并行（TP），可充分利用两块 GPU，实现最高约 2 倍的内存容量和最高约 1.8 倍的计算性能。LM Studio 已通过其应用程序提供这些更改，供更广泛地使用。要开始使用 LM Studio，请打开 LM Studio 应用，选择 Settings，然后选择 Runtime 以启用 TP。

Bar charts showing two RTX 5070 GPUs running tensor parallelism on llama.cpp deliver up to 6.5x higher generation throughput compared to a single RTX 5070, outperforming pipeline parallelism across all four tested models—Qwen3.6-27B, Gemma- — 图 2. 与 llama.cpp 上的流水线并行和单 GPU 推理相比，张量并行多 GPU 技术可将 token 生成性能提升最高 1.8 倍

ComfyUI 集成了 Classifier-Free Guidance（CFG）方法，可在两块 GPU 上实现最高 2 倍的计算性能。用户还可以将模型链拆分到多块 GPU 上，以便将其完整加载到内存中，从而能够运行高 VRAM 模式。这消除了低 VRAM 模式下的内存交换开销，带来额外的性能提升。

Bar chart titled Multi-GPU Creative AI Performance on ComfyUI, comparing generation performance across models with one RTX 5090 versus multi-GPU RTX 5090 with CFG and device selection. — 图 3. 在 RTX 5090 配置上，ComfyUI 多 GPU 技术带来的生成时间性能提升

要开始使用多 GPU 推理，请查看 llama.cpp GitHub 仓库以及 How to Build a Multi-GPU AI PC。

媒体和视频开发者有哪些新内容？

NVIDIA AI for Media SDK（AI4M）现已面向构建 AI 驱动的视频和广播流程的开发者开放私有访问。它包含以下功能：

LipSync 达到 GA：随着针对语言优化的模型现已支持法语、德语和西班牙语，LipSync 能够实现更高质量的配音和内容本地化，并且相较基础模型提升了发音清晰度。
Active Speaker Detection（ASD）GA：增强的多机位和多麦克风支持，以及跨视频说话人 ID 关联，解锁了自动化工作流——口型同步配音、视频编辑和高级日志记录——这些工作流此前需要人工完成。

开始在 Windows PC 上构建个人 AI 智能体

AI 智能体正在重塑软件的构建、使用和部署方式，而 NVIDIA RTX 上的本地 AI 技术栈已经准备就绪。凭借安全的智能体沙箱、更快的推理、多 GPU 扩展以及日益成熟的 Windows AI 平台，在全球超过 1 亿台 NVIDIA RTX PC 上进行构建的开发者，已经拥有发布下一代 AI 应用程序所需的基础设施。

了解更多信息，并开始为 NVIDIA RTX AI PC 进行开发。

使用 Microsoft 和 NVIDIA 的新工具在 Windows PC 上构建个人 AI Agent