元鉴
返回中文阅读流

NVIDIA Newsroom

NVIDIA 与 Microsoft 合作打造用于代理式 AI 部署的统一技术栈,覆盖 Windows 设备、云端与本地环境

代理式 AI 时代已经到来。NVIDIA 与 Microsoft 将向开发者提供覆盖 Windows 设备、Azure 云和本地部署的完整技术栈。

中文内容

已翻译professional media英文原文2026-06-02

代理式 AI 时代已经到来,但要兑现其承诺,仅有优秀模型还不够。还需要高速硬件、安全运行时、响应迅速的数据层,以及为长时间推理调优的模型。NVIDIA 和 Microsoft 正将这一完整技术栈带给 Windows 设备、Azure 云和本地部署环境中的开发者。

在 Microsoft Build 上,NVIDIA 创始人兼 CEO Jensen Huang 通过来自台北的直播参加了 Microsoft 董事长兼 CEO Satya Nadella 的主题演讲,讨论扩大的合作内容:面向 Windows 的 NVIDIA RTX Spark 和 DGX Station、由 NVIDIA GPU 加速的 Microsoft Fabric、Microsoft Foundry 上的 NVIDIA 开放模型、GitHub Copilot 中的 NVIDIA OpenShell 安全运行时,以及由 NVIDIA 驱动的下一代 AI 工厂。

为智能体重塑 Windows:从 RTX Spark 到面向 Windows 的 DGX Station

NVIDIA 和 Microsoft 正在为 AI 智能体时代重新构想 Windows PC。借助 RTX Spark 笔记本电脑和小型台式机,以及面向 Windows 的 DGX Station 桌边 AI 超级计算机,开发者可以在 Windows 上原生构建、调优并运行智能体。

RTX Spark 是一个新的起点,为全球首批专为个人智能体打造的 Windows PC 提供动力,具备 1 petaflop AI 性能、最高 128GB 统一内存、全天候电池续航,并在未接电源时保持完整 AI 和图形性能。系统融合 NVIDIA 30 多年的创新,包括 CUDA、RTX、DLSS 和 TensorRT,将于今年秋季由 Microsoft Surface、ASUS、Dell、HP、Lenovo 和 MSI 推出。

面向 Windows 的 DGX Station 是用于在 Windows 企业应用和工作流上构建并运行智能体的最强大桌边 AI 超级计算机。其搭载 NVIDIA GB300 Grace Blackwell Ultra Desktop Superchip,拥有最高 748GB 一致性内存和 20 petaflops FP4 性能,可运行最高 1 万亿参数的前沿模型,用于持续在线的企业智能体。系统预计将于第四季度由 ASUS、Dell、GIGABYTE、HP、MSI 和 Supermicro 推出。两款产品均运行 NVIDIA OpenShell,这是一种安全设计优先的自主智能体运行时。

更多内容请阅读这篇 Microsoft 博客:“Introducing a powerful new chapter for Windows PCs, accelerated by NVIDIA RTX Spark”

借助 Microsoft Foundry 上的 NVIDIA 开放模型,为企业规模的代理式工作流提供动力

代理式 AI 运行在一个模型系统之上。随着 NVIDIA、Anthropic 和 OpenAI 模型以及 Hermes special agents 现已进入 Foundry Agent Service 托管智能体,企业可以在 Azure 上构建代理式系统,并内置身份与治理功能。Anthropic 的 Claude 模型现在可在 Azure 上的 NVIDIA GB300 Blackwell Ultra 系统上原生运行,未来数周将向客户开放。

NVIDIA Nemotron 3 Ultra 是一款新的开放前沿推理模型,面向编码、研究和企业工作流中的长时间运行智能体,本月可在 Foundry 托管计算上使用,同时还有用于语音识别的 Nemotron 3.5 ASR 和 Nemotron 3.5 Content Safety。开发者可以将 Nemotron 与前沿模型和本地模型组合使用,为每个工作流优化成本与质量。

NVIDIA 在 Foundry 上的开放模型组合现已覆盖代理式、物理和科学 AI。NVIDIA Cosmos 3 是首个完全开放的物理 AI 全模态模型,带来视觉推理、世界模拟和动作生成能力。NVIDIA Earth-2 AI 天气模型可通过 Microsoft Planetary Computer Pro 和 Foundry 用于企业预测和风险分析。

NVIDIA Agent Toolkit 和 NVIDIA NemoClaw 蓝图为开发者提供了一个开源平台,用于在 Foundry 上构建生产级智能体。包括 cuDF、cuOpt、AI-Q 和 NeMo 在内的 NVIDIA CUDA-X 库现在可作为特定领域技能供智能体访问。

了解更多内容请观看这场 Build 分会场:“Orchestrate Special Agents with NVIDIA Nemotron Models on Microsoft Foundry.”

为 AI 时代加速企业数据仓库

数据为代理式 AI 提供燃料,快速访问数据至关重要。

NVIDIA 加速计算现已内置于 Microsoft Fabric Data Warehouse。Microsoft 内部基准测试显示,其 SQL 执行速度最高比 CPU 驱动基线快 6 倍,在高并发工作负载下最高比另外三家领先云数据仓库提供商快 7 倍。

企业数据层现在可以跟上 AI 智能体持续查询数据并基于数据推理的节奏,这是 NVIDIA 和 Microsoft 多年来从研究到生产进行深度工程合作的成果。

更多内容请阅读这篇 Microsoft 博客:“Microsoft Build 2026: Building agentic apps with Microsoft Fabric and Microsoft Databases”

推进物理 AI 和自主系统

物理 AI 是智能体的下一个前沿。

Microsoft 正在将 NVIDIA 的开源物理 AI 技能和工具与 Azure 及其 Physical AI Toolchain 集成。开发者将获得一个由 Cosmos 3 混合 Transformer 架构驱动的统一平台,用于模拟、训练和部署自主系统,包括能够在物理世界中感知、推理、规划和行动的机器人、自动驾驶车辆和工业系统。Cosmos 3 在视觉推理、世界生成和动作生成等关键基准上位居开放模型第一。

借助 NVIDIA RTX PRO 6000 Blackwell Server Edition 和 Nemotron 模型增强 Azure Local 与 Foundry Local

代理式 AI 正在走出云端。

Microsoft 正在将 Azure Local 上的 Foundry Local 引入 NVIDIA RTX PRO 6000 Blackwell Server Edition 平台。结合 NVIDIA Nemotron 开放模型家族,企业可以在数据所在位置运行高性能 AI 工作负载,无论是在本地、混合还是主权环境中,同时不牺牲性能或治理能力。

Azure Local 上的 Foundry Local 现在支持多节点部署和 vLLM 运行时,可为制造、能源、主权数据中心以及其他对延迟敏感的场景扩展推理能力。

更多内容请阅读这些 Microsoft 博客:“Unlocking the possibilities of physical AI with Foundry Local and Azure Local”,“Scale On-Prem AI with Foundry Local on Azure Local”

通过 NVIDIA OpenShell 将安全智能体开发带入 GitHub Copilot

随着智能体从编码辅助走向自主执行,它们需要真正的能力,但不应持有真实凭据。

现已集成到 GitHub Copilot 的 NVIDIA OpenShell 解决了这一问题:每个智能体都在自己的沙箱容器中隔离运行,并且每次出站调用在接触文件、网络或凭据之前都会根据策略进行评估。策略以代码形式编写,在代码库中进行版本管理,并可动态更新。OpenShell 根据 Apache 2.0 开源,模型无关,并覆盖本地、混合和云环境。

了解更多内容请观看这场 Build 闪电演讲:“Secure Agent Workflows with GitHub Copilot and NVIDIA OpenShell.”

Fairwater Wisconsin 上线,并通过 NVIDIA Vera Rubin 验证

Microsoft 的 Fairwater Wisconsin AI 工厂现已提前上线,将数十万套 NVIDIA Grace Blackwell 系统作为单一 AI 工厂运行,并与佐治亚州的类似 AI 工厂连接,为最严苛的前沿模型提供可扩展、分布式 AI 系统。通过在电力、冷却、NVIDIA Spectrum-X Ethernet 以及新的 Multipath Reliable Connection(MRC)传输协议方面的联合工程,Microsoft 的 Fairwater AI 数据中心设计正在优化 token 经济性。

此外,Microsoft 已经验证了目前全面量产的 NVIDIA Vera Rubin 平台,可部署于 Azure 数据中心。

Vera Rubin 可与 Blackwell 并行接入且无需改造,每兆瓦推理吞吐量最高提升 10 倍,并将每个代理式 token 的成本降低一个数量级。内置 NVIDIA Confidential Computing 可在智能体大规模推理时保护模型和数据。NVIDIA Dynamo 推理框架将这些收益扩展到软件层面,加速 AKS 上的模型冷启动,并通过 NVIDIA Grove 带来 Kubernetes 原生的分布式推理编排。

更多内容请阅读这篇 Microsoft 博客:“Scaling multi-node LLM inference with NVIDIA Dynamo-Grove on AKS (Part 4)”

探索 Microsoft Build 上 NVIDIA 全部会议、演示和动手实验。

原文标题

NVIDIA Partners With Microsoft on Unified Stack for Agentic AI Deployment, From Windows Devices to Cloud to Local