中文内容
单轮聊天机器人正在演变为长时间运行的智能体,能够推理、保持上下文、使用工具,并在多轮交互中高效运行,以完成复杂工作流。
然而,这些多智能体工作流会导致 token 数量快速增长。智能体会进行规划、调用工具、调用子智能体、接收信息,然后持续将历史记录、输出和推理步骤传回模型。随着任务运行时间变长,这种持续通信会增加成本以及目标漂移的风险。
开发者可以通过一套模型系统来解决这一问题:使用前沿推理模型进行编排和复杂规划,使用高效模型执行高容量的执行、验证和工具调用。
NVIDIA 正在发布 NVIDIA Nemotron 3 Ultra,这是一个开放模型,旨在帮助长时间运行的智能体更快完成任务,同时降低成本。
用于代理编排的 Nemotron 3 Ultra
Nemotron 3 Ultra 是一个拥有 550B 参数的 Mixture-of-Experts 模型,激活参数为 55B,专为代理系统中的前沿推理和编排而构建。
在任何代理工作流中,大多数调用都是常规的,但其中一个关键子集需要更深入的推理。Nemotron 3 Ultra 旨在处理这些高难度调用:在多个编码会话中维持架构决策、综合数百个研究来源中相互矛盾的证据,或在数千项约束下验证芯片设计。
PinchBench91%84%91%89%Long-horizon Planning
EnterpriseOps-Gym33%40%29%30%Coding
Terminal-Bench 2.054%64%67%53%Instruction Following
IFBench82%77%74%78%Knowledge Work
GDPVal-AA1,4481,5941,5081,192Professional Work Tasks
ProfBench (Search)56%46%56%53%Long Context
Ruler @1M95%N/A (max 256K)N/A (max 256K)90%
Nemotron 3 Ultra 也很快速。与同级别的其他开放模型相比,它实现了高出 5 倍的吞吐量,使长时间运行的智能体能够更快、更高效地完成任务。

Nemotron 3 Ultra 也为效率而构建。在 SWE-bench 和 Terminal bench 2.0 的实验中,与可比模型相比,它完成基准测试所使用的总 token 数和每轮 token 数更少。这将智能体任务的成本最多降低 30%。

为 Nemotron 3 Ultra 提供动力的突破
为缓解高容量推理模型典型的效率与准确性权衡问题,Nemotron 模型引入了架构创新:
面向智能体框架进行后训练 Nemotron Ultra 经过后训练,可在顶级框架中提供一致的准确性。该模型使用 NVIDIA NeMo RL 和 Gym 开源库进行训练,并采用了全球规模最大的长期运行、任务解决、工具使用数据集套件之一。
Ultra 针对由智能体主导的开放式框架进行了优化,而不仅仅是单轮聊天,并被设计为可在工作流中运行:智能体在多轮交互中进行规划、调用工具、读取观察结果、委派给子智能体、验证输出,并从错误中恢复。
混合 Mamba Transformer:Mamba 层提升了长上下文工作负载的序列处理效率,而 Transformer 层则在智能体需要从大型上下文窗口中检索特定事实时保留精确召回能力。
NVFP4 精度:同一个 NVFP4 checkpoint 可在 NVIDIA Hopper、NVIDIA Blackwell 和 Ampere GPU 上运行。借助专用的 NVFP4 量化内核,开发者可以在所有 NVIDIA GPU 架构上使用同一个 checkpoint。与 Blackwell 上的 BF16 相比,NVFP4 还可在保持相同交互性的情况下,使每个 GPU 的吞吐量最高提升 5 倍。
LatentMoE:LatentMoE 支持更高效的专家路由,使模型能够处理涵盖推理、代码生成、工具调用和特定领域逻辑的工作流。
多 token 预测:多 token 预测(MTP)通过在一次前向传播中预测多个未来 token,帮助缩短生成时间,从而提升长输出和多轮工作流的吞吐量。
Nemotron 3 Ultra 增加了多教师在线策略蒸馏
多教师在线策略蒸馏(Multi-Teacher On-Policy Distillation,MOPD)是一种训练方法,在训练过程中,Ultra 会在生成自身尝试结果的同时,向多个专门化教师模型学习。系统会训练 10 多个专门化教师模型,每个模型都有各自面向特定领域的训练流水线。每个教师模型都会在其专业领域内为该模型打分,帮助 Ultra 更高效地提升跨领域推理能力。

在 MOPD 过程中,学生模型会跨领域生成 rollout,并从相应的教师模型接收密集奖励信号。为最大化效率,MOPD 以异步方式运行,将学生 rollout 生成、教师打分和学生优化完全流水线化。
MOPD 也是迭代式的。在生成一个经过 MOPD 训练的检查点后,新一轮教师训练会从更新后的学生模型初始化,并将改进合并到下一阶段的 MOPD 中。
学生与教师之间的这种协同演进,使能力能够持续提升,并在各个领域逐步形成更强的专业化。用户可以通过 NeMo-RL 尝试 MOPD 配方,该库用于训练 Ultra 模型。
用于更强智能体推理的训练数据
与所有 Nemotron 开放模型发布一样,训练数据流水线的很大一部分会尽可能以宽松许可的方式发布。对于企业和主权 AI 开发领域的合作伙伴而言,训练数据透明度和来源与能力同样重要。
特定领域预训练数据
在 10T token 预训练基础之上,Nemotron 3 Ultra 新增了 212B 个 token,针对三个高价值领域差距:
- 4B 个合成法律数据 token,将代理 LegalBench 平均值从 64.6% 提高到 74.7%
- 35B 个基于 Wiki 合成的数据 token,将代理 SimpleQA 从 40.2% 提升到 50.2%
- 173B 通过截至 2025 年 9 月 30 日的 GitHub tokens 进行了更新
后训练数据和 RL 环境
此次发布还推出了 1000 万个新的 SFT 样本、跨多个领域的 100 万个新 RL 任务,以及 15 个全新的 RL 环境,使 Nemotron 开放数据的累计总量达到 5000 万个 SFT 样本、200 万个 RL 任务和 55 个 RL 环境。
其结果是在 Pi、OpenHands、Hermes、OpenCode 和 Mini SWE Agent 上取得了 65% 至 70.4% 的 SWEBench Verified 分数——无论部署哪个框架,都能保持一致的性能。
针对你的领域进行微调
Nemotron 3 Ultra 可以使用 NVIDIA NeMo 库,通过 LoRA、SFT 和强化学习进行微调。开发者可以从以下配方开始。
Nemotron 3 Ultra 配方:
- SFT LoRA:NeMo Automodel(H100 配方,GB200 配方)
- 完整 SFT:NeMo Megatron Bridge 配方
- 强化学习:NeMo RL GRPO 配方、GRPO LoRA 配方、MOPD 配方
部署
使用 Dynamo Recipes 部署 Nemotron Ultra,用于 KV 感知路由、多 token 预测(MTP)以及解耦式预填充/解码。
观看实际演示
本演示将展示如何使用由 build.nvidia.com 上的 Nemotron 3 Ultra 驱动的 Hermes Agent 启动并运行一个自动研究流程。
使用 NVIDIA NemoClaw 和 NVIDIA OpenShell 更安全地运行智能体
Nemotron 模型可与领先的开放式智能体框架集成。要构建一个安全、始终在线的智能体系统,了解参考技术栈非常重要:
- Hermes Agent 和 OpenClaw:这些是常用的智能体运行框架,为多轮工作流提供编排循环、记忆和工具。Hermes Agent 现已正式推出,并完全支持与 Nemotron 一起使用。
- NVIDIA OpenShell:目前以早期预览版形式提供,OpenShell 是一个安全运行时环境(属于 NVIDIA Agent Toolkit 的一部分),自主智能体及其生成的代码在其中执行。
- NVIDIA NemoClaw:这是将整个环境连接在一起的开源蓝图。通过单条命令,NemoClaw 即可安装 OpenShell 运行时——为运行 Hermes Agent 等自主智能体提供安全环境,使其能够与 Nemotron 等开源模型一起更安全地运行。
构建更安全且支持语音的智能体
另外两款新的 Nemotron 模型也将发布:
Nemotron 3.5 Content Safety 对于正在构建更安全企业级 AI 的团队而言,Nemotron 3.5 Content Safety 是一款开放、高效的 4B 护栏模型,用于对文本、图像及组合输入中的不安全、被禁止或违反政策的内容进行分类。
该模型覆盖 23 个安全类别和 12 种语言,可用作推理时护栏、作为 LLM 安全测试与评估的评判器,或与配套训练数据集结合使用,对模型进行后训练以实现更安全的行为。自定义政策支持和推理轨迹有助于企业根据特定领域规则调整安全决策、审计分类,并在全球 AI 工作流中部署安全控制。阅读 Hugging Face 文章以了解更多信息。
Nemotron 3.5 ASR 对于语音原生代理,Nemotron 3.5 ASR 采用与其英文前代 Nemotron 3 ASR 相同的缓存感知流式架构,可即时处理音频增量。消除冗余的缓冲计算,可确保低于 100 毫秒的延迟,为你的代理群实现自然、实时的语音编排。
该英文模型获得了开发者的广泛采用,包括为 Microsoft GitHub Copilot CLI 中的语音输入功能提供支持,该功能被超过 2000 万开发者使用。一项针对 50 多种端侧 ASR 配置的独立基准测试将 Nemotron 3 ASR 认定为在资源受限硬件上进行实时英语流式处理的最强候选方案。现在,同一架构通过单一 checkpoint 支持 40 多种语言,实现了多语言能力。
更新开放许可,以促进更广泛采用
Nemotron 模型发布正在转向 OpenMDW-1.1,这是 Linux Foundation 的宽松许可,专为开放 AI 模型分发而构建。OpenMDW 旨在在单一框架下覆盖完整的模型材料集合,包括架构、参数、文档、软件以及其他相关工件。
这为开发者和企业在使用、修改、再分发和部署 Nemotron 模型时提供了更清晰的条款,同时减少了可能减缓开放模型评估和采用的许可不确定性。
立即开始构建
Nemotron 3 Ultra 完全开放——包括权重、数据和配方——因此开发者可以将这些模型适配到特定领域的工作流,并在任何地方部署。它可在各大领先推理平台上使用,并以 NVIDIA NIM 微服务形式打包,可在任何地方运行。
可通过 Pro 订阅在 Perplexity 上试用,或通过 API、OpenRouter、Anaconda 或 build.nvidia.com 试用。
从 Hugging Face 下载权重,通过 NVIDIA NIM 启动优化实例,或从 cookbooks 入手,在几分钟内运行起来。
Nemotron 3 Ultra 可通过合作伙伴生态系统获取:
- 模型定制服务:Applied Compute、Prime Intellect、Unsloth
- 推理软件:SGLang、TRT-LLM、vLLM
- 云服务提供商:Amazon SageMaker JumpStart、Google Cloud、Microsoft Foundry、Oracle Cloud
- 推理服务提供商:Baseten、DeepInfra、Eigen AI、fal(ASR)、Fireworks AI、FriendliAI、Modal、ModelScope、Ollama cloud、Simplismart
- AI 云和服务:Bitdeer AI、CoreWeave、Dell Enterprise Hub、Crusoe、DigitalOcean、GMI Cloud、Lightning AI、Nebius Token Factory、Together AI、Vultr
查看 GitHub 仓库,获取 agent harness 的入门说明,其中包括 BlackBox AI、Cline、CrewAI、Factory AI、Hermes Agent、Kilo Code、LangChain Deep Agents、OpenClaw、OpenCode、OpenHands 和 Pi。
如需了解完整技术细节,请阅读 Nemotron 3 Ultra 技术报告。
订阅 NVIDIA 新闻,并在 LinkedIn、X、Discord 和 YouTube 上关注 NVIDIA AI,及时了解 NVIDIA Nemotron 的最新动态。
访问 Nemotron 开发者页面,获取入门资源。在 Hugging Face 上探索开放的 Nemotron 模型和数据集,并在 build.nvidia.com 上探索 Blueprints。
通过 Nemotron 直播、教程,以及 NVIDIA 论坛和 Discord 上的开发者社区参与互动。
标签

















