元鉴
返回中文阅读流

NVIDIA Developer Blog

在 NVIDIA DGX Spark 上使用更快的模型和多节点集群运行本地 AI Agent

自主、长时间运行的 AI Agent 的兴起带来了一类新的计算需求,即需要维持大型上下文窗口、并发生成……的任务

中文内容

已翻译official company source英文原文2026-06-05

自主、长时间运行的 AI 智能体的兴起带来了一类新的计算需求,即需要维持大型上下文窗口、生成并发子智能体,并在不依赖云端的情况下持续迭代的任务。安全和隐私方面的担忧也在加速向本地智能体的转变。

开发者通过在自己拥有的硬件上运行自主智能体,并由 NVIDIA NemoClaw 编排执行,可以将敏感上下文保留在设备端,保持对智能体可访问内容的直接控制,并消除按 token 计费的成本。

NVIDIA DGX Spark 旨在用于在本地构建和运行自主智能体。在 Computex 2026 上,NVIDIA 正在显著简化实现这一目标的流程,推出一条从开箱到数分钟内运行 AI 智能体的精简路径(不包括初始模型下载时间,该时间取决于网络速度)。此外,Qwen3.6 的模型性能也有所提升,并为需要扩展到单台设备之外的团队提供了引导式多节点集群设置。

本文将介绍这些更新对构建智能体式 AI 系统的开发者意味着什么,包括如何安装 NVIDIA NemoClaw、它会设置哪些内容,以及如何在 DGX Spark 上使用 OpenClaw 构建并运行你的第一个智能体。

先决条件

  • 首次下载模型需要有效的互联网连接
  • 熟悉终端,以便进行可选的配置步骤

从开箱到运行本地代理

让本地 AI 代理运行起来,在过去通常需要找到合适的模型、配置推理后端、安装运行时,并将它们串联起来。即使对经验丰富的开发者来说,这个过程也可能耗费大半天时间。新的简化版 NemoClaw 安装路径改变了这一点。

对于新系统,体验始于 DGX Spark 的开箱和首次设置。最新版本的 DGX Spark 系统软件,即 2026 年 6 月发布版,提供了迄今最精简的开箱体验(OOBE),让用户能够更快使用本地代理。在此版本中,初始设置期间不再默认安装无线更新,从而缩短设置时间,让用户更快进入 Ubuntu 桌面。

NemoClaw 是一个开源蓝图,将三项内容打包到一次安装中:开放模型、代理框架(如 Hermes Agent 或 OpenClaw)以及 NVIDIA OpenShell 运行时。OpenShell 是一个安全的沙盒执行环境,旨在更安全地运行自主代理。它为代理循环添加了访问控制、隐私保护和操作护栏。结合设备端推理,这为开发者的代理式工作负载提供了更强的默认安全与隐私态势。

步骤 1:安装 NemoClaw

下图 1 展示了从 OOBE 完成到 DGX Spark 上运行 NemoClaw 代理的完整路径。

Flowchart showing NemoClaw discoverability for users installing it on to the NVIDIA DGX Spark.Flowchart showing NemoClaw discoverability for users installing it on to the NVIDIA DGX Spark.
图 1. DGX Spark 上的 NemoClaw 桌面安装流程,从 OOBE 完成,到模型下载,再到首次代理启动

完成 OOBE 后,DGX Spark 会重启并打开 build.nvidia.com/spark,其中醒目显示 NemoClaw playbook,用于引导式演练。运行这一条命令即可安装 Node.js(如有需要)、安装 OpenShell、克隆最新稳定版 NemoClaw、构建 CLI,并运行板载向导以创建沙盒。

curl -fsSL https://www.nvidia.com/nemoclaw.sh | bash

安装向导会引导你完成设置:

  1. 接受 NemoClaw 和 OpenClaw 许可证——输入 yes 进行确认
  2. 运行快速安装——输入 Y 进行确认
  3. 本地 Ollama 已设置完成,并已自动下载 Qwen3.6-35B

了解如何在您的 DGX Spark/GB10 系统上安装 NemoClaw 的更多信息:从在 DGX Spark 上使用 NemoClaw 开始 →

第 2 步:访问你的 agent

安装完成后,你就可以自定义你的 agent。

首先,使用 WebUI 进行交互:

nemoclaw <sandbox name> gateway-token --quiet

然后在浏览器中打开带有 token 的 URL:http://127.0.0.1:18789/#token=<WEBUI_TOKEN>。请严格使用 127.0.0.1——网关源检查要求使用它(而不是 localhost)。

发送一条快速测试消息——“hello”或“what can you do?”——以确认整个技术栈已启动运行。本地 Ollama 模型已被选中;NemoClaw 会在入门引导期间自动完成此配置。

步骤 3:构建你的第一个智能体

在你的沙盒运行后,NemoClaw Applications 操作手册提供了四个可直接运行的智能体,帮助你开始使用——每个都包含策略设置、入门提示词和个性化指导:

  • Daily Personal News Digest——一个定时的晨间简报,会扫描你的主题并将结构化摘要发布到 Telegram
  • 软件开发代理——读取本地项目目录,制定计划,编写并审查自己的代码,全程不使用除本地推理之外的任何出站网络连接
  • 演示文稿和文档审阅器——在文件发出之前进行红队审查,返回一份按严重程度排序的问题清单,列出不一致之处、无来源依据的声明以及可访问性问题
  • 日历协商代理——一个负责日程安排的幕僚长,将“我们什么时候可以会面?”的邮件往来转化为已确认的日历事件

步骤 4:进一步自定义

沙盒运行后,用于塑造代理行为的主要杠杆包括:

  • 系统提示词——从仪表板编辑代理的指令,以塑造其响应方式以及在采取行动前应询问的内容。更具体的提示词会产生更可靠的代理。
  • 工具权限——OpenShell 网络策略控制代理可以调用哪些外部目标。更窄的权限可以减少意外行为。
  • 集成——如果你在引导设置期间启用了消息渠道,则已经可以在那里联系到该代理。用手机给它发送一条消息,它会使用同一个本地模型进行响应。

开发者可以通过替换不同模型、调整 OpenShell 权限,以及将智能体连接到本地工作流来进一步自定义。要使用不同模型启动一个新的沙盒,请运行 nemoclaw onboard --fresh --gpu,并在向导中选择不同的模型。请注意,--fresh 会销毁并重新创建现有沙盒;使用 --name <new-name> 可以创建一个额外的沙盒,而不影响现有沙盒。完整的 NemoClaw 安装说明和模型目录可在 NVIDIA NGC 上获取。

提示:从小范围开始。首次运行时,为智能体分配一个单一且范围明确的任务,例如基于本地文档“summarize a file”或“answer a question”。在扩展其权限之前,先确认响应和工具调用看起来正确。

在迭代过程中,有几个值得随时备查的命令:

CommandWhat it doesnemoclaw <sandbox name> statusShow sandbox status and inference healthnemoclaw <sandbox name> logs --followStream sandbox logs in real timenemoclaw listList all registered sandboxes
表 1. 用于监控和管理智能体沙盒的实用 NemoClaw CLI 命令

使用 Qwen3.6-35B 的 DGX Spark 智能体

开发者可以在 vLLM 上使用 NVIDIA 的 NVFP4 量化检查点并结合 MTP 优化,体验 Qwen 3.6 35B 等顶级智能体模型最高达 2.6 倍的推理速度提升。其他改进包括:改进了 vLLM CUDA Graph 对通过 FlashInfer 实现 MTP 的支持、跨 FlashInfer MoE 内核的 BF16 自动调优,以及 TinyGEMM 和 cuBLAS BF16 路径。

Bar chart showing 2.6× throughput improvement for Qwen3.6-35B on DGX Spark with vLLM after Computex optimizations, compared to a 1X baselineBar chart showing 2.6× throughput improvement for Qwen3.6-35B on DGX Spark with vLLM after Computex optimizations, compared to a 1X baseline
图 2. Computex 优化使 DGX Spark 上使用 vLLM 运行 Qwen3.6-35B 的整体吞吐性能提升了 2.6 倍

扩展规模:NVIDIA Sync 中的集群助手

对于需要比单台 DGX Spark 所能提供的更多内存或吞吐量的开发者,NVIDIA Sync 中的集群助手可自动完成将两到四台 DGX Spark 连接成高带宽集群的过程。

集群在模型层面很重要:两个 DGX Spark 节点可提供 256 GB 统一内存(足以支持约 400B 参数模型),四个节点可提供 512 GB。这足以运行大型 MoE 模型、包含多个并发推理实例的多智能体流水线,或受益于分布式内存的微调任务。

设置集群需要配置 ConnectX-7 网络。每台 DGX Spark 都配有支持 200 Gbps RoCE 的 ConnectX-7 NIC,但要正确使用它们,需要配置 netplan、设置节点间 SSH 信任、验证每条链路的带宽,并了解目标拓扑的正确 IP 分配方案。集群助手通过 Sync 内部的引导式工作流程简化网络配置。

Sync 配置的内容

从已加入 Sync 的设备开始,集群助手会逐步执行:系统就绪检查(OTA 版本、sudo 访问权限)、CX-7 拓扑检测(使用在每个节点上并行运行的探针,并结合 LLDP/BPDU 证据与接口和 IP 检查)、IP 规划与冲突消除以及 netplan 应用、通过 ib_write_bw / ib_write_lat 进行带宽和延迟验证,以及使用通过 CX-7 fabric 路由的密钥进行节点间 SSH 设置。

支持的物理配置包括:双节点直连(单根 QSFP 线缆,无交换机)、三节点环形(三根 QSFP 线缆,每个节点的两个 CX-7 端口均启用),以及通过 QSFP 交换机连接的二至四个节点,其最低要求如下:

  • 至少 4 个 QSFP56-DD 端口
  • 可拆分为 25/50/100/200/400 G
  • 建议每端口最大端口速率为 200G-400G
  • 一个 1/10GbE 管理以太网端口
  • 支持 RoCE v2
  • 交换容量/吞吐量:最低 0.8-1.6 Tbps

有关 NVIDIA Sync 集群助手和受支持拓扑的文档,请参阅 NVIDIA Sync 文档。

了解更多关于 DGX Spark 的信息

这三项功能现已全部可用:

  • NemoClaw 简化安装:从 DGX Spark 上的 NemoClaw 开始 →
  • NemoClaw 应用示例:设置 NemoClaw 代理示例 →
  • 将 DGX Spark 接入 NVIDIA Brev:在 NVIDIA Brev 上注册你的 DGX Spark →

开始构建

Computex 2026 上的 DGX Spark 更新减少了构建生产级本地代理的两大障碍:首个代理的启动时间,以及运行大型模型所需算力的获取。简化的 NemoClaw 安装流程让开发者从开箱即可运行一个以 Qwen3.6-35B 为默认模型、并内置安全执行环境的 OpenClaw 代理。对于需求更多的团队,Sync 中的集群助手消除了启动多节点集群的专业知识门槛,并可提供完整的 ConnectX-7 性能。

开始在 NVIDIA DGX Spark 上构建 →



Like

标签

原文标题

Run Local AI Agents with Faster Models and Multi-Node Clustering on NVIDIA DGX Spark