元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-26

自主 AI 智能体正在推动下一波 AI 创新浪潮。这些智能体通常需要管理长时间运行的任务，这些任务需同时使用多个通信通道和后台子进程，以探索选项、测试解决方案并生成最佳结果。这对本地算力提出了极高的要求。

NVIDIA DGX Spark 提供了自主智能体高效、本地执行这些复杂工作流所需的性能。如今，借助作为 NVIDIA Agent Toolkit 组成部分的 NVIDIA NemoClaw，它可安装 NVIDIA OpenShell 运行时——一个用于运行自主智能体的安全环境，以及 NVIDIA Nemotron 等开源模型。

本文探讨了为始终在线的自主智能体提供动力所需的系统能力与性能的若干重要方面，并解释了为何 NVIDIA DGX Spark 是自主 AI 的理想桌面平台。

自主AI智能体的推理

智能体工具通常需要处理庞大的上下文窗口。例如，OpenClaw 是一款 AI 智能体运行时，它需要借助这些大上下文窗口来理解请求与环境，并推演解决问题的最佳方案。

提示词处理（prefill）吞吐量可被视为推理过程中的阅读理解阶段，在使用较慢的 GPU 时极易成为瓶颈。自主智能体轻松使用 30K-120K token 的上下文已十分常见（10 万 token 的文本量约等于《哈利·波特与魔法石》），部分智能体在处理复杂请求时甚至会处理 25 万 token。

表1展示了潜在的智能体或子智能体在大上下文窗口（ISL/OSL 为 128K/1K）下的性能表现。

Model End-to-end latency
(s)Prompt processing latency
(s) Prompt processing throughput
(tok/s)Token generation throughput
(tok/s)NVIDIA Nemotron 3 Super 120B NVFP4 with TensorRT LLM 99442,85518Qwen3.5 35B A3B FP8 with vLLM 73 41 3,080 35.75 Qwen3 Coder Next 80B FP8 with vLLM 89 54 2,390 28.95

表1. batch size 为 1 时，128K token 输入提示词与 1K token 响应输出的代表性性能。

从单个子智能体扩展到多个子智能体时，并发工作负载必须能够扩展，且不会显著影响性能。在此场景下，NVIDIA DGX Spark 可有效处理高并发负载。

得益于 NVIDIA Grace Blackwell Superchip 的强大算力，GPU 能够并行处理多个子智能体。两个、四个甚至八个子智能体并发处理请求，可充分利用 DGX Spark 强大的并发能力。

在具备优秀并发处理能力的框架（如 NVIDIA TensorRT LLM、vLLM 和 SGLang）支持下，多智能体工作负载可在 NVIDIA DGX Spark 上顺畅运行。对于 ISL 为 32K、OSL 为 1K 的任务，完成四倍数量的任务仅需耗时增加 2.6 倍，而提示词处理吞吐量则提升约 3 倍（表 2）。

NVIDIA DGX Spark 是 OpenClaw 开发的理想平台。借助 NVIDIA OpenShell，您可更安全地运行自主且具备自我进化能力的智能体。欢迎立即在本地 NVIDIA DGX Spark 上开始运行 OpenClaw。

Concurrency
(# of simultaneous tasks) End-to-end latency
(s)Median TTFT
(s)Prompt processing throughput
(tok/s)Token generation throughput
(tok/s)Lower is betterHigher is better1 359 3,261 38 2 54 12 5,363 47 4 91 15 9,616 53

表2. 在不同并发级别下，Qwen3 Coder Next 在 vLLM 中使用 FP8 精度处理 32K token 输入提示词并生成 1K token 回复的代表性性能

在最多四个 NVIDIA DGX Spark 节点上扩展推理与微调

更庞大的模型和多个子智能体在加载与执行时需要更大的内存。此前，NVIDIA DGX Spark 仅支持扩展至两个节点，将可用内存从单节点的 128 GB 提升至双节点的 256 GB。目前，该扩展能力已升级至最多支持四个 DGX Spark 节点。

DGX Spark 现已支持多种执行拓扑，每种拓扑均借助 ConnectX-7 NICs 实现的 RoCE 通信低延迟优势，针对不同目标进行了优化。

单台 DGX Spark 节点：适用于低延迟与大上下文长度推理、最高 120B 参数规模的微调，以及本地智能体工作负载。
两台 DGX Spark 节点：提供均衡的扩展能力以加速微调并支持更大规模模型，同时支持最高 400B 参数的推理。
三个 DGX Spark 节点组成环形拓扑：非常适合微调较大模型或小型训练任务
配备 RoCE 200 GbE 交换机的四个 DGX Spark 节点：作为本地推理服务器，非常适合参数量高达 700B 的尖端模型、通信密集型工作负载以及本地 AI 工厂运营

当节点间通信极少时，DGX Spark 上的推理可实现线性扩展。若各 GPU 的任务高度独立，计算结果仅在最终阶段汇总一次，而非持续进行。在此情况下，DGX Spark 节点可并行运行，且同步开销较低。

例如，NVIDIA Isaac Lab 中的强化学习（RL）工作负载可在每个节点上独立运行大量仿真。结果通过单步聚合收集，从而在多个 DGX Spark 节点间实现接近线性的扩展性能。

当工作负载需要节点间频繁且细粒度的通信时，推理扩展将呈现次线性增长。在 LLM 推理期间，模型逐层执行，各节点间需持续保持同步。不同 DGX Spark 节点产生的部分结果需反复交换与合并，由此引入显著的通信开销。随着节点数量的增加，该开销将日益占据主导地位，进而制约扩展效率。

AI 智能体并行计算：大规模推理

张量并行技术支持跨多节点高效共享推理任务，从而在适配模型规模的同时将通信开销降至最低。将 DGX Spark 节点从两个扩展至四个可提供出色的并行能力。这得益于低延迟的 ConnectX-7 网卡，在推理应用场景中，其每输出令牌时间（TPOT）的扩展性能几乎呈线性，TP2（双节点）约为 2 倍，TP4（四节点）约为 4 倍。

表 3 展示了单个智能体如何执行跨多节点共享的推理任务。

1 DGX Spark node TP1
(ms)2 DGX Spark nodes TP2
(ms)4 DGX Spark nodes
TP4
(ms)
TTFT (lower is better) 33,41521,384 15,552TPOT (lower is better) 269 13372

表 3. 在 TensorRT LLM 上使用 1、2 和 4 个 DGX Spark 节点对 Llama 3.3 70B Instruct NVFP4 进行扩展（32K 输入，1K 输出，批次大小 1）

在 OpenClaw 应用场景中广受欢迎的几款模型——包括 Qwen3.5 397B、GLM 5 和 MiniMax M2.5 230B——均可通过堆叠多个 DGX Spark 单元来提升可用内存容量。

近线性微调

当模型实例能够装入单块 GPU 时，微调及类似工作负载可实现高度并行化，并获得接近线性的性能扩展。这会将通信开销降至最低，仅需在每一步结束时进行梯度同步。

在 NVIDIA Isaac Lab 或 Nanochat 中运行的 RL 工作负载可从此性能扩展中受益。Isaac Lab 可在每个 DGX Spark 上容纳每个环境的多个副本。在每一步中，Isaac Lab 会与其他节点通信以同步训练，从而通过集群实现线性加速。

1 DGX Spark node
TP12 DGX Spark nodes
TP24 DGX Spark nodes
TP4 Collection time 12.1 s 11.4 s 10.4 s Learning time 40.9 s41.4 s 42.3 s # environments 1,024 1,024 1,024 FPS 630 12412,520

表 4. Isaac Lab 强化学习性能在一、二和四个 DGX Spark 节点上的扩展情况

HW configuration Total token throughput
(tok/s) Speedup versus 1 DGX Spark node 1 DGX Spark node ~18,4001 2 DGX Spark nodes ~35,900 24 DGX Spark nodes ~74,600 4

表 5. Nanochat 微调性能在一至四个 DGX Spark 节点上的扩展情况（模型深度为 20 层，每节点批量大小为 32，全上下文注意力）

在使用分布式数据并行（DDP）时，微调同样能受益于较低的通信开销。在此情况下，每个节点均可完整托管一份模型副本，且每步仅需与其他节点通信一次。

Nodes Samples/step Batch size Samples/s Speedup 1 DGX Spark node 15.73 32 2.03 – 3 DGX Spark nodes 15.69 96 6.12 3x

表6. 将单台 DGX Spark 扩展至三台 DGX Spark 节点，每个节点承载完整的 Qwen3 4B 模型（每台设备批大小为 4 个样本，BF16 量化）

在 DGX Spark 上开发，部署至云端：跨架构工作流

从原型开发过渡到大规模生产部署时，需借助云解决方案。本节将说明如何在云端部署基于 DGX Spark 开发的工作负载。

Tile IR 与 cuTile Python 可实现内核从 DGX Spark 开发环境向 NVIDIA Blackwell 数据中心 GPU 云端部署的无缝移植，且仅需极少的代码修改。借助 TileGym，开发者能够：

使用 cuTile Python DSL 一次性编写内核
在 DGX Spark 上进行测试和验证
只需极少的代码更改，即可部署至 NVIDIA Blackwell B300/B200、NVIDIA Hopper 或 NVIDIA Ampere
利用 TileGym 预优化的 Transformer 内核作为直接替换组件

端到端推理性能

除内核级分析外，我们在两个平台上使用 cuTile 内核对完整的 Qwen2 7B 推理进行了基准测试，以证明跨架构的性能可移植性。表7展示了配置信息；表8展示了平台规格。

Parameter Value Model Qwen2 7B Input length 2,189 tokens Output length 128 tokens Batch sizes 1, 2, 4, 8, 16, 32, 64, 128

表7. 展示 Tile IR 使用情况的模型与参数规格

Specification NVIDIA DGX Spark (Dev) NVIDIA Blackwell B200 (Cloud) Compute capability SM 12.1 SM 10.0 SM count 48 148 SM frequency 2.14 GHz ~1.0 GHz Memory type LPDDR5X (Unified) HBM3e Memory bandwidth 273 GB/s ~8 TB/s

表8. 作为本地与云端示例的 NVIDIA DGX Spark 和 NVIDIA B200 平台规格

平台特定配置

尽管内核源代码在各平台上保持一致，但通过平台特定配置（Tile 与 Occupancy）可实现最佳性能。以 FMHA 内核为例，表9 展示了这些配置如何适配不同的硬件特性。Tile IR 会在 JIT 阶段编译为特定架构的 PTX/SASS，并通过相应的配置自动利用平台特定功能，例如 Tensor Memory Accelerator (TMA)。

Platform TILE_M TILE_N Occupancy Rationale NVIDIA DGX Spark (SM 12.1) 64 64 2 Smaller tiles 48 SMs, unified memory NVIDIA B200 (SM 10.0) 256 128 1 Large tiles maximize HBM3e throughput NVIDIA B200 (alt) 128 128 2 Higher occupancy, balanced parallelism

表9. NVIDIA DGX Spark 和 NVIDIA B200 平台特定的 cuTile 配置

Tile IR 内核性能的 Roofline 分析与比较

NVIDIA Nsight Compute 中的 Roofline 分析是一款强大的可视化性能框架，用于评估应用程序对硬件能力的利用程度。作为开发者，Roofline 分析有助于你判断代码是否“运行缓慢”，并揭示其触及性能上限的原因。

Roofline模型分析表明，该内核相对于各自的Roofline能够有效扩展，证明Tile IR是扩展工作负载的可行方案。所考虑的内核为注意力解码内核，且已使用Tile IR进行优化。

A Tensor Core roofline chart comparing B200 (blue) and Spark (green) shows hardware arithmetic intensity on the x‑axis and achieved performance (OP/s) on the y‑axis (both log scale). Measured kernel points indicate the B200 achieves higher — 图1. NVIDIA Nsight Compute中的Roofline分析显示，Tile IR内核性能在NVIDIA B200与NVIDIA DGX Spark上的扩展情况，及其相对于各GPU理论峰值Roofline的表现。

性能扩展与优化余量

图1中，数据点在y轴上的垂直位置证实，该内核在NVIDIA B200上实现了更高的硬件利用率。具体而言，蓝点与NVIDIA B200 GPU内存roofline的垂直距离比绿点与Spark roofline的垂直距离更近。

该roofline分析表明仍存在进一步的优化空间，且对NVIDIA DGX Spark进行的算法或内存优化同样将使NVIDIA B200 GPU受益。

缓存利用率与计算强度

分析X轴可知，蓝点位于绿点右侧，表明B200具备更优异的硬件计算强度。

缓存效率：尽管NVIDIA B200 GPU更大的缓存容量为降低DRAM访存流量提供了理论基础，但仅靠硬件并不足够。软件必须进行针对性的架构设计，以充分利用这些资源。
内核可移植性：位置右移表明，Tile IR内核在迁移过程中成功利用了NVIDIA B200扩展的缓存层级结构。

旨在提升 Spark 上算术强度的未来 Tile IR 内核优化——即让数据点在 x 轴上进一步右移——在各类云 GPU 上运行时，将天然带来叠加的性能收益。

自动化跨平台自动调优

目前，最优配置是根据平台特性进行选取的。cuTile 的未来版本将支持全自动跨平台自动调优。自动调优器将自动为各目标架构探寻最优的分块大小与占用率设置，从而在无需任何手动配置的情况下，实现透明的性能可移植性。

开始使用 NVIDIA DGX Spark

随着 AI 系统日益复杂，NVIDIA DGX Spark 提供了高效部署这些系统所需的灵活、多拓扑执行环境。从多智能体推理到万亿参数服务，从微调至 Tile IR 跨云流水线，DGX Spark 兼顾了可扩展性与高效性。

由此形成一个统一平台，企业可在其上部署并扩展 AI 工作负载，而无需为每个模型或运行时重写基础设施。

通过以下操作指南了解更多内容：

以环形拓扑连接三台 DGX Spark
通过交换机连接多台 DGX Spark

开始在 NVIDIA DGX Spark 上构建。

使用 NVIDIA DGX Spark 扩展自主 AI 代理和工作负载