元鉴
返回中文阅读流

NVIDIA Developer Blog

介绍 Nemotron 3 Super:一种用于代理推理的开源混合 Mamba-Transformer MoE

代理式 AI 系统需要具备专门深度的模型,以自主解决密集的技术问题。它们必须在推理、编码和长上下文...方面表现出色。

中文内容

已翻译official company source英文原文2026-05-26

智能体(Agentic)AI 系统需要具备专业深度的模型,以自主解决复杂的技术难题。它们必须在推理、代码编写和长上下文分析方面表现卓越,同时保持足够的效率,以支持在大规模场景下的持续运行。

多智能体系统每轮交互都需要重新发送历史记录、工具输出和推理步骤,其生成的 token 数量最高可达标准对话的 15 倍。在长周期任务中,这种“上下文爆炸”会导致目标漂移,使智能体逐渐偏离最初的目标。此外,为每个子任务都调用庞大的推理模型会带来沉重的“思考税”,导致多智能体应用在实际使用中成本过高且响应迟缓。

今天,我们正式发布 Nemotron 3 Super 以突破上述局限。这款全新的 Super 模型采用总参数量 120B、激活参数量 12B 的架构,能够为软件开发与网络安全事件分级等复杂的多智能体应用提供极致的计算效率与精准度。该模型是继 12 月推出 Nemotron 3 Nano 之后的又一升级版本。

Super 凭借其混合专家(MoE)架构有效化解了“思考税”问题。其吞吐量较上一代 Nemotron Super 提升了 5 倍以上。该模型通过原生支持 100 万 token 的上下文窗口来应对“上下文爆炸”,为智能体赋予长期记忆能力,从而实现高度对齐且高精度的推理。该模型实行完全开源,提供开放的模型权重、数据集与训练配方,方便开发者在自有基础设施上轻松进行定制、优化与部署。

Nemotron 3 Super 的独特之处

Nemotron 3 Super 并非只是 Nano 的放大版。它引入了架构创新,使该模型能够缓解高容量推理模型中典型的效率与精度权衡问题:

  • Latent MoE 通过在 token 到达专家模型前进行压缩,能够在相同的推理成本下,调用数量多 4 倍的专家模型。
  • 多词元预测(MTP)能够在一次前向传播中预测多个未来词元,从而大幅缩短长序列的生成时间,并实现内置的投机解码。
  • 混合 Mamba-Transformer 骨干网络,通过融合用于提升序列处理效率的 Mamba 层与用于精确推理的 Transformer 层,在实现更高吞吐量的同时,将内存和计算效率提升了 4 倍。
  • 专为 NVIDIA Blackwell 优化的原生 NVFP4 预训练,在保持精度的同时显著降低内存需求,并使 NVIDIA B200 的推理速度相比 NVIDIA H100 上的 FP8 提升了 4 倍。
  • 采用多环境强化学习(RL),并使用 NVIDIA NeMo Gym 和 NVIDIA NeMo RL 在 21 种环境配置下进行 RL 后训练,累计完成超过 120 万次环境 rollout。

这些优势相结合,打造出非常适合长时间运行自主智能体的模型。在 PinchBench(一项用于评估 LLM 作为 OpenClaw 智能体“大脑”表现的全新基准测试)上,Nemotron 3 Super 在全套测试中取得 85.6% 的得分,成为同类最佳的开源模型。

查看实际运行效果

如果您想上手体验 Nemotron 3 Super,请观看下方的教程视频。该视频将逐步指导您如何从 build.nvidia.com 到 OpenCode 使用该模型。

视频 1. Nemotron 3 Super 教程演示

深入剖析架构

混合 Mamba-Transformer MoE 主干网络

Super 沿用了与 Nano 相同的混合设计理念,但在规模上存在根本性差异。该主干网络交错排列了三种类型的层:

Mamba-2 层负责处理大部分序列数据。状态空间模型(SSMs)提供了与序列长度呈线性关系的时间复杂度,这正是使 1M-token 上下文窗口得以落地应用而非仅停留于理论的关键。当智能体需要对完整代码库、长对话历史或大量检索文档进行推理时,Mamba 层能将内存占用控制在合理范围内。

Transformer 注意力层在关键网络深度处进行交错嵌入。纯 SSM 在处理精确关联回忆任务时往往存在短板——即需要从冗长上下文中精准定位某一特定事实。注意力层保留了这一能力,确保 Super 即使在矛盾信息交织的“大海捞针”场景中,仍能保持高保真的检索表现。

MoE 层能够在不增加密集计算成本的前提下扩展有效参数量。每个词元仅激活一部分专家,从而保持低延迟与高吞吐量——这在共享部署中多个智能体并发运行时至关重要。

Architecture diagram of Nemotron-3-Super-120B-A12B showing five groups of repeating layer blocks connected in sequence. Each block contains six layers in order: Mamba-2, Latent MoE, Mamba-2, Attention, Mamba-2, Latent MoE.Architecture diagram of Nemotron-3-Super-120B-A12B showing five groups of repeating layer blocks connected in sequence. Each block contains six layers in order: Mamba-2, Latent MoE, Mamba-2, Attention, Mamba-2, Latent MoE.
图 1. 展示 Mamba-2/MoE 配对重复模块与注意力层交替排列的层模式示意图

正文:Latent MoE

标准 MoE 架构将词元直接从模型的完整隐藏维度路由至各专家。随着模型规模扩大,该路由层逐渐成为瓶颈——它推高了计算成本,并限制了实际可部署的专家数量。

Super 引入了 Latent MoE:在做出路由决策之前,词元嵌入会被投影至压缩的低秩潜在空间。专家计算在此较低维度下进行,计算结果随后再被投影回模型的完整维度。

这在实际应用中的重要性:

更多专家,同等成本。通过在 token 到达专家模块前进行压缩,latent MoE 使模型能够以与仅运行单个专家完全相同的计算成本,调用多达 4 倍的专家。

更细粒度的专业化。由于可用专家数量增加,模型能够实现高度专业化的路由——例如,针对 Python 语法与 SQL 逻辑分别激活不同的专家——且这些专家仅在绝对必要时才会被调用。这种细粒度在智能体场景中尤为宝贵,因为单次对话可能在短短几轮内涵盖工具调用、代码生成、数据分析以及对话推理。

A diagram comparing standard MoE and Latent MoE transformer architectures side by side.A diagram comparing standard MoE and Latent MoE transformer architectures side by side.
图 2. 标准 MoE 与 latent MoE 架构的并列对比

多 Token 预测(MTP)

标准语言模型的训练目标是每次预测一个 token——这本质上是一种短视的目标。Super 采用 MTP 进行训练,其专用预测头可在每个位置同时预测多个未来的 token。

这带来了两项具体的优势:

训练期间推理能力更强。预测多个未来的 token 迫使模型内化更长程的结构和逻辑依赖关系。模型不再仅仅是学习猜测合理的下一个词,而是必须学会预测连贯的序列。这在思维链任务上带来了可衡量的提升,因为此类任务的每一步都必须严格遵循上一步的逻辑。

推理时内置投机解码。通过在单次前向传播中同时预测多个未来的 token,MTP 大幅减少了生成长序列所需的时间。MTP 预测头提供的草稿预测可被并行验证,从而在代码和工具调用等结构化生成任务中实现高达 3 倍的实际运行时间加速——且无需额外的草稿模型。

这两项优势源于同一项设计决策。与针对每个偏移量训练独立预测头的架构不同,Super 在所有 MTP 预测头之间采用了权重共享设计。这在保持极小参数开销的同时提升了训练稳定性——各预测头学会了就连贯的续写达成一致,而不是各自走向针对特定偏移量的捷径。同样的权重共享机制也使得投机草稿在更长草稿长度下保持一致性,而这正是独立训练的预测头通常会出现性能退化的地方。

原生 NVFP4 预训练

大多数量化模型最初采用全精度进行训练,并在训练后进行压缩,这不可避免地会带来精度损失。Super 采用了不同的方法:在预训练期间,绝大部分浮点乘加运算均在 NVFP4(NVIDIA 4位浮点格式)中运行。该方案针对 Blackwell 架构进行了优化,与 FP8 相比,在保持精度的同时显著降低了内存需求并提升了推理速度。

原生低精度训练意味着模型从首次梯度更新起,就在4位运算的约束下学习如何保持准确性。最终得到的模型即使在内存占用大幅缩减的情况下,依然具备数学上的稳定性与准确性。

我们如何训练 Nemotron 3 Super

Nemotron 3 Super 的训练分为三个连续阶段,每个阶段均建立在前一阶段的基础之上。预训练在大规模层面构建广泛的世界知识与语言理解能力。监督微调针对模型在部署时将面临的各类任务类型,塑造其行为模式。随后,强化学习在多样化的智能体环境中,依据可验证的结果对该行为进行进一步优化。

预训练

Super 使用 NVFP4(针对 NVIDIA Blackwell 优化的 NVIDIA 4 位浮点格式)在 25 万亿 token 上进行预训练。与其在事后对全精度模型进行量化,Super 从首次梯度更新起便原生采用低精度进行训练——这意味着模型在整个预训练过程中(而不仅限于推理阶段)就能学习如何在 4 位算术的约束下保持准确性。预训练语料库涵盖 10 万亿个经过精心筛选的唯一 token,模型在完整训练周期内共处理 25 万亿个 token,其中包含专门用于推理和编程任务的额外计算资源。

监督微调

在强化学习之前,Super 会基于约 700 万个 SFT 样本进行监督微调。这些样本源自包含 4000 万条数据的更广泛的后训练语料库,涵盖推理、指令遵循、代码编写、安全性以及多步智能体任务。该阶段确立了行为基础,供后续强化学习进一步优化。模型将学习各类任务中正确响应的格式与结构,从而为后续的强化学习阶段提供稳定的起点,而非直接从原始预训练检查点开始优化。

多环境强化学习

为了使 Super 与真实的智能体行为保持一致,该模型在 NeMo Gym(NVIDIA 用于构建和扩展强化学习训练环境的开源库)的多样化环境中使用强化学习进行后训练。这些环境评估模型执行连续动作序列的能力——生成正确的工具调用、编写可运行的代码、制定满足可验证标准的多部分计划——而不仅仅是提供令人满意的单轮回复。这些轨迹构成了使用 NeMo RL 开源库大规模运行强化学习的核心训练数据。

这种基于轨迹的强化训练所生成的模型,能够在多步工作流中保持可靠的行为表现,减少推理漂移,并能够处理智能体流水线中常见的结构化操作。

Nemotron 3 Super 基准测试

Nemotron 3 Super 在多项重要的智能体基准测试中实现了领先的准确率,同时保持了极高的吞吐量。

A bar chart benchmarking Nemotron 3 Super 120B against GPT OSS 120B and Qwen3 122B across accuracy and throughput metrics.A bar chart benchmarking Nemotron 3 Super 120B against GPT OSS 120B and Qwen3 122B across accuracy and throughput metrics.
图 3. 对比 Nemotron 3 Super 与规模相近的开源模型在关键基准测试上准确率的图表。

“Super + Nano”部署模式

Nemotron 3 Nano 是在智能体工作流中精准执行特定独立步骤的绝佳选择。然而,当多智能体应用扩展到复杂的多步骤任务时,则需要高容量模型来实现更出色的规划与推理能力。试想一个计算机操作智能体,它需要在不同模态的工具之间进行决策,以完成诸如制作包含10页高质量幻灯片的演示文稿等任务。

Nemotron 3 Super 正是此类场景的理想之选。例如,在软件开发中,简单的合并请求可由 Nemotron 3 Nano 处理,而需要深入理解代码库的复杂编码任务则交由 Nemotron 3 Super 完成。至于专家级编码任务,则可交由专有模型处理。

基于 Super 的开放资源进行构建

Nemotron 3 Super 实现了全面开放——涵盖模型权重、数据集及训练配方——因此开发者可以轻松地在自有基础设施上对其进行定制、优化与部署,从而最大限度地保障隐私与安全。

模型权重

Nemotron 3 Super 的全参数检查点可在 Hugging Face 和 NVIDIA NIM 上获取。NVIDIA Nemotron 开放模型许可证为企业提供了保持数据控制权并在任意位置部署的灵活性。

端到端训练与评估配方

我们现发布 Nemotron 3 Super 的完整训练与评估配方,涵盖从预训练到对齐的全流程。这使得开发者能够复现 Super 的训练过程,将该配方适配于特定领域变体,或将其作为自身混合架构研究的起点。

部署指南

我们为主流推理引擎构建了即用的技术指南(Cookbook),每个指南均包含配置模板、性能调优指导与参考脚本:

  • vLLM Cookbook:面向 Super 的高吞吐量连续批处理与流式推理。
  • SGLang Cookbook:针对多智能体工具调用工作负载优化的快速、轻量级推理。
  • NVIDIA TensorRT LLM Cookbook:深度优化的 TensorRT LLM 引擎,集成潜在 MoE 内核,专为生产级低延迟部署设计。

微调指南

探索我们的 Nemotron 3 Super 定制指南,以针对您的领域高效微调(LoRA/SFT),或提升其智能体推理能力(GRPO/DAPO):

  • 使用 NVIDIA NeMo Megatron-Bridge 在 Nemotron 3 Super 上进行 LoRA SFT
  • 使用 NVIDIA NeMo Automodel 对 Nemotron 3 Super 进行 LoRA SFT
  • 在 Nemotron 3 Super 上使用 NeMo RL 进行 GRPO/DAPO

公开数据集

Nemotron 3 Super 基于一条完全开放、端到端的数据流水线构建,涵盖预训练、后训练与交互式强化学习,为开发者提供用于构建智能体 AI 的可复现模块。

  • 预训练语料库:10万亿精选Token,训练总处理量达25万亿Token,外加100亿专注于推理的Token及1500万个编程问题。所有数据均经过严格去重与质量过滤,以最大化信噪比。
  • 后训练数据集:4000万条全新的监督与对齐样本,涵盖推理、指令遵循、代码、安全及多步智能体任务,数据分布于监督微调、偏好数据与强化学习轨迹(其中约700万条直接用于SFT)
  • 强化学习任务与环境:涵盖21种环境配置和37个数据集(其中约10个正在发布)的交互式强化学习,包括软件工程师风格的智能体训练以及工具增强的搜索/规划任务——突破静态文本限制,转向动态、可验证的执行工作流,并在训练期间生成约120万次环境交互轨迹。

开放训练与评估基础设施

NVIDIA 发布了开发技术与工具,为研究人员和企业提供了定制 Nemotron 3 Super 或构建自有推理模型的灵活性。所有方案均与 Nemotron GitHub 仓库、NeMo Gym、NeMo RL、NVIDIA NeMo Data Designer、NVIDIA NeMo Curator 以及 NVIDIA NeMo Evaluator 集成,提供了一条从数据到部署的完整、可复现的流水线。

所有 Nemotron 模型均以开放的评估方式发布,其中包括公开的评估方案,使任何人都能够重新运行并查验 Nemotron 3 Super 的完整评估流水线。

快速入门

Nemotron 3 Super 现已上线。该模型支持主流推理平台,并封装为 NVIDIA NIM,可在从工作站到云端的任意环境中运行。您可通过 Pro 订阅在 Perplexity 上体验,或通过 API、OpenRouter 以及 build.nvidia.com 进行调用。

从 Hugging Face 下载模型权重,通过 NVIDIA NIM 启动优化实例,使用 Unsloth 进行微调,或直接参考示例教程,几分钟内即可快速上手运行。

Super 也可通过 Baseten、Cloudflare、Coreweave、DeepInfra、Fireworks AI、FriendliAI、Google Cloud、Inference.net、Lightning AI、Modal、Nebius 和 Together AI 使用。

请访问我们的 GitHub 仓库,其中包含适用于 OpenCode、OpenHands 和 OpenClaw 等平台的入门指南。

如需了解完整的技术细节,请阅读 Nemotron 3 Super 技术报告。

订阅 NVIDIA 新闻,并在 LinkedIn、X、Discord 和 YouTube 上关注 NVIDIA AI,以随时了解 NVIDIA Nemotron 的最新动态。访问 Nemotron 开发者页面获取入门资源。在 Hugging Face 上探索开源 Nemotron 模型与数据集,并在 build.nvidia.com 上查看 Blueprints。此外,您还可以在 NVIDIA 论坛和 Discord 上参与 Nemotron 直播、教程及开发者社区互动。

Like

标签

原文标题

Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning