元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-26

智能体AI是一个生态系统，专用模型在其中协同工作，负责处理规划、推理、检索与安全护栏。随着这些系统规模的扩大，开发者需要能够理解现实世界多模态数据、与全球用户自然对话，并能跨语言和跨模态安全运行的模型。

在 GTC 2026 上，NVIDIA 推出了新一代 NVIDIA Nemotron 模型，旨在协同工作，构成统一的智能体技术栈：

NVIDIA Nemotron 3 Super 用于长上下文推理与智能体任务
NVIDIA Nemotron 3 Ultra（即将推出）在开源前沿模型中提供最高的推理准确性与效率
用于多模态、多语言内容审核的 NVIDIA Nemotron 3 内容安全
NVIDIA Nemotron 3 VoiceChat（早期体验），用于实现低延迟、自然的全双工语音交互
NVIDIA Nemotron 3 Nano Omni（即将推出），面向企业级多模态理解
NVIDIA Nemotron RAG 用于结合 NVIDIA Llama Nemotron Embed VL 生成图像与文本模态的嵌入，并在相关性依赖于视觉内容时，结合 NVIDIA Llama Nemotron Rerank VL 对图像或文本候选项进行重排序。

结合开放数据、训练方案与 NVIDIA NeMo 工具，Nemotron 模型系列提供了一套端到端工具包，用于构建、评估和优化面向生产环境的智能体 AI 系统。

本文探讨了最新的 Nemotron 3 模型及其性能，并介绍了开发者如何利用它们构建可扩展、多模态且实时的 AI 智能体。

借助 NVIDIA Nemotron 3 Super 驱动多智能体系统

多智能体系统常受困于“上下文爆炸”，其海量 token 历史记录可达标准聊天的 15 倍，且每次决策均需进行思维链推理，从而产生“思考税”。NVIDIA Nemotron 3 Super 是一款开放的混合专家（MoE）模型，每次前向传递仅激活 12B 参数，以极少的计算成本实现了高精度与高效率。

结合 Mamba 与 Transformer 层的混合架构、多 token 预测技术，以及在 NVIDIA Blackwell GPU 上运行的 NVFP4 精度，该模型吞吐量较上一代提升高达 5 倍，同时降低了显存占用与成本。可配置的“思考预算”让开发者能够限制思维链推理范围，从而确保延迟和开销可控，即使是持续运行的智能体工作负载也不例外。

凭借 100 万 token 的上下文窗口和在 10 多个环境中的强化学习训练，Nemotron 3 Super 在编程、数学、指令遵循和函数调用方面表现出色，是构建多智能体应用的理想之选——在 Blackwell 上以 NVFP4 精度运行时，其吞吐量实现显著提升。

Scatterplot of models on intelligence score versus output throughput per GPU (8×NVIDIA A100); Nemotron-3-Super NVFP4 sits in the top-right “most attractive” quadrant with both higher intelligence and higher throughput than peer models like — 图 1. Nemotron 3 Super 在提供顶级智能的同时，在 Artificial Analysis 最具吸引力的效率象限中，其单 GPU 吞吐量位居前列。

Nemotron 3 Super 采用 latent MoE 架构，以仅相当于单个专家的推理成本调用四个专家网络，并在 token 进入专家层前对其进行压缩。

外部评估结果也印证了这一点。在面向参数量低于 250B 的开放权重模型的 Artificial Analysis Intelligence Index 中，Nemotron 3 Super NVFP4 位列顶尖模型行列，其智能得分与领先竞品持平。

Bar chart from Artificial Analysis showing intelligence index scores for open-weight models under 250B parameters; Nemotron-3-Super NVFP4 scores 42, matching the highest scores among leading models such as Qwen2.5 and Llama-3.1 70B. — 图 2. 在 Artificial Analysis Intelligence Index 中，Nemotron 3 Super 在参数量低于 250B 的开放权重模型中名列前茅。

在智能与效率对比图中，Nemotron 3 Super 落在了最具吸引力的右上角象限——兼具强大的任务处理能力与高 GPU 输出吞吐量——使其成为对成本敏感的生产级智能体的理想选择。

Nemotron 3 Super 凭借开放权重、开放训练数据和开放开发配方，非常适用于软件开发、深度研究、网络安全以及金融服务行业。

使用 Nemotron 3 Content Safety 保障智能体安全

随着智能体从纯文本工作流向多模态工作流扩展，安全护栏必须在输入、检索和输出环节同步演进。它们还必须适用于企业 Copilot 和用户生成内容（如约会应用或社交媒体）等用例，并能在医疗等涉及自残风险的智能体系统中检测提示词注入攻击。

Nemotron 3 Content Safety 是一款紧凑的 4B 参数多模态安全模型，可检测文本和图像中的不安全或敏感内容。该模型基于 Gemma-3-4B 骨干网络构建，并采用基于适配器的分类头，能够以低延迟提供高精度的安全分类，非常适合生产级智能体流水线。它融合了视觉和语言特征，输出简单的安全/不安全判定结果，并可提供可选的细粒度类别标签。开发人员可通过快捷关键词切换功能，在快速二分类与完整分类体系报告之间进行选择，从而兼顾低延迟路径与深度检测需求。

在一套多模态、多语言安全基准测试中，Nemotron 3 Content Safety 达到了约 84% 的准确率，在相同任务上优于其他替代安全模型，同时保持足够低的延迟，可满足生产流水线中在线内容审核的需求。

Chart showing Nemotron 3 Content Safety achieving 84% accuracy across multimodal, multilingual benchmarks. — 图3. 在跨模态、多语言有害内容基准测试中，该模型与其他安全模型的准确率对比。

该模型采用与 Aegis 1–3 相同的23类分类体系，涵盖仇恨、骚扰、暴力、色情内容、剽窃和未经授权的建议等类别。该模型基于高质量的 Aegis 数据集和人工标注的真实世界图像进行训练（而非主要依赖合成数据），在其支持的12种语言的跨模态基准测试中表现强劲，并具备扎实的零样本泛化能力。

与 Nemotron 3 VoiceChat 进行自然对话

传统语音 AI 依赖于级联流水线，包括自动语音识别（ASR）、大语言模型（LLM）和文本转语音（TTS），这些环节都会引入延迟、复杂性以及多个故障点。

Nemotron 3 VoiceChat 是一款 12B 参数规模的端到端语音模型，专为全双工、实时对话型 AI 设计，目前处于早期访问阶段。与级联堆栈不同，VoiceChat 在统一且流式的 LLM 架构中直接分析音频输入并生成音频输出。使用该单一模型免除了多模型编排的繁琐。VoiceChat 基于 Nemotron Nano v2 LLM 主干构建，并结合 Nemotron 语音（Parakeet 编码器）与 TTS 解码器，能够以低延迟提供自然且支持随时打断的对话体验。

在早期访问阶段，该模型已跻身 Artificial Analysis 语音到语音（Speech to Speech）排行榜最具吸引力的右上象限。下图将对话动态与语音推理性能进行对比绘制，Nemotron 3 VoiceChat 与 NVIDIA PersonaPlex（一款全双工、7B 参数的研究模型）均位于突出显示的右上象限。这意味着开发者既能获得响应迅速的话轮转换能力，又能获得强大的音频推理能力；这两点对于必须听起来自然且能保持任务专注的智能助手而言至关重要。

Scatterplot titled “Conversational Dynamics (Full Duplex Bench) vs Speech Reasoning (Big Bench Audio)” comparing open‑source full‑duplex models. The x‑axis shows speech‑reasoning scores and the y‑axis shows conversational‑dynamics scores. N — 图4. Nemotron 3 VoiceChat 和 NVIDIA PersonaPlex 在对话动态和语音推理两方面均领先于开源全双工模型，成功进入 Artificial Analysis 基准测试中“最具吸引力”的象限。

凭借精简的端到端流水线，VoiceChat 的目标是实现低于 300ms 的端到端延迟，并以快于实时的速度处理 80ms 的音频块。单一模型意味着更少的故障点、更低的技术债，以及更轻松地在医疗、金融服务、电信、游戏等领域部署对话代理。

借助 NVIDIA Nemotron 3 Omni 理解世界

智能体系统日益需要理解视频、音频、文档、UI 屏幕等不同格式的现实世界数据，并具备跨模态推理能力。现有解决方案要么为闭源系统，要么在全球企业级部署时面临合规挑战。

NVIDIA Nemotron 3 Nano Omni 是首款开源且具备生产就绪能力的原生全理解基础模型，提供经音频转录增强的高上下文视频推理能力。Nano Omni 由 NVIDIA Nemotron 语音模型（Parakeet 编码器）、基于 Nemotron 3 Nano 语言主干的最先进光学字符识别（OCR）推理能力，以及 NVIDIA 首个针对真实智能体应用进行 GUI 训练的系统共同驱动。

该架构采用 3D 卷积层（Conv3D）高效处理视频中的时空数据；高效视频采样（EVS）技术通过识别并剪枝时间静态区块，使得在同等计算成本下能够处理更长的视频。请持续关注该模型的发布动态。

借助 Llama Nemotron Embed VL 与 Rerank VL 提升多模态搜索能力

智能体 RAG 流水线依赖检索环节使生成过程基于确凿证据，而非仅依赖提示词。然而，企业数据通常存在于包含图表的 PDF、扫描合同、表格及演示幻灯片中——这些格式是纯文本检索完全无法覆盖的。

Llama Nemotron Embed VL 与 Llama Nemotron Rerank VL 是轻量级多模态模型，在保持与标准向量数据库兼容的同时，可实现精准的视觉文档检索。在 ViDoRe V3/MTEB 帕累托曲线（该曲线描绘了在单张 NVIDIA H100 GPU 上每秒处理的 Token 数与检索准确率之间的关系）中，Llama Nemotron Embed VL 占据了帕累托前沿。相较于开源及商业替代方案，该模型在高吞吐量下依然能够提供具有竞争力乃至更优的准确率。

Pareto curve for model accuracy vs performance for open and commercial embedding models. Benchmarked on 1xH100 by the MTEB leaderboard on the ViDoRe V3 benchmark — 图 5. 开源与商业嵌入模型的准确率与性能帕累托曲线。基于 ViDoRe V3 基准测试，由 MTEB 榜单在单张 H100 上进行性能评估。

Llama Nemotron Embed VL 是一款 17 亿参数的稠密嵌入模型，可将页面图像和文本编码为单维向量，并支持 Matryoshka 嵌入。该模型基于 NVIDIA Eagle 构建——这是一款采用 Llama 3.2 1B 主干网络和 SigLip2 400M 视觉编码器的前沿视觉语言模型——它利用对比学习计算查询与文档的相似度，并支持与标准向量数据库配合实现毫秒级延迟搜索。

Llama Nemotron Rerank VL 是一款 17 亿参数的交叉编码器重排序模型，用于评估查询与页面的相关性。当与 Llama Nemotron Embed VL 模型配合使用时，它通过对检索到的文本块和图像进行重排序，进一步提升了准确性。

使用 NVIDIA NeMo 进行评估与优化

构建生产级智能体不仅需要强大的模型，还需要稳健的评估与优化工具。NVIDIA NeMo 提供了用于评估、比较和调优智能体系统的工具：

NVIDIA NeMo Evaluator 支持智能体评估，可实现稳健且可复现的基准测试。通过提供标准化的评估设置，开发者能够在一致的条件下进行性能基准测试、验证输出并比较模型。
NVIDIA NeMo Agent Toolkit 是一个开源框架，用于对智能体系统进行端到端的性能剖析与优化。无需修改代码即可接入来自 LangChain、AutoGen、AWS Strands 或其他框架的智能体，从而清晰掌握延迟瓶颈、Token 成本与编排开销，以大规模部署高性能智能体。

使用 Nemotron 开始构建

智能体 AI 标志着系统从“被动响应”向“主动行动”的转变。它是由模型、工具、记忆与安全护栏协同组成的技术栈，具备规划、执行、审查与自适应能力。如果仅仅是在原有聊天界面中换用更大的模型，那并不属于智能体范畴。

NVIDIA 宽松开放模型许可证下发布的 Nemotron 系列模型专为这种多模型现实而构建。Nemotron 3 Super 锚定长上下文推理与规划。Nemotron 3 Content Safety 监控每一步，审核多模态输入、检索内容与输出。Nemotron 3 VoiceChat 将该智能转化为全双工实时对话。即将推出的 Nemotron 3 Nano Omni 将为智能体提供跨越视频、音频、文档、图表和 GUI 的视觉与听觉能力。围绕这些模型，NeMo 工具提供检索、工具调用、评估与评判模型，使智能体能够自我评分并持续改进。

效率是保障生产落地的隐性要求。真实智能体在单个任务中通常会发起数十至数百次模型调用，因此 Nemotron 模型采用适中的规格，并针对吞吐量、延迟与成本进行了深度优化。同时，凭借其开放性与可定制性，团队能够微调模型行为、使用自有数据进行对齐，并将其部署在安全与合规团队指定的环境中。

借助 Nemotron 与 NVIDIA NeMo，您将获得构建可信赖、可复现且可扩展的数字助理的基石，以赋能您的生产级智能体系统。

立即开始：

从 Hugging Face 下载 Nemotron 模型与数据集。
在此处预览并访问 Nemotron Super。
在此处访问 Nemotron 3 Content Safety。
在此处预览并申请 Nemotron 3 VoiceChat 的早期访问权限。
使用 NVIDIA NeMo Evaluator 进行评估
使用 NeMo Agent Toolkit 进行优化。
在 build.nvidia.com 和 OpenRouter 上评估 NVIDIA 托管的 API 端点。

订阅 NVIDIA 新闻，并在 LinkedIn、X、Discord 和 YouTube 上关注 NVIDIA AI，以随时掌握 NVIDIA Nemotron 的最新动态。

访问 Nemotron 开发者页面获取入门资源。在 Hugging Face 上探索开放的 Nemotron 模型与数据集，并在 build.nvidia.com 上探索 Blueprints。

参与 Nemotron 直播与教程，并在 NVIDIA 论坛和 Discord 上与开发者社区互动交流。

构建用于推理、多模态 RAG、语音和安全性的 NVIDIA Nemotron 3 代理