元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-26

智能体系统通常在单一的感知到行动循环中跨屏幕、文档、音频、视频和文本进行推理。然而，它们仍然依赖碎片化的模型链——分别用于视觉、音频和文本的独立技术栈。这增加了推理跳数和编排复杂度，推高了推理成本，同时削弱了跨模态上下文的一致性。

NVIDIA Nemotron 3 Nano Omni 是 Nemotron 3 家族的新成员，将统一的多模态推理整合到一个高度高效的开放模型中。Nemotron 3 Nano Omni 旨在取代碎片化的视觉-语言-音频技术栈，在智能体系统中充当多模态感知与上下文子智能体。

借助这一点，智能体可以在单一共享的感知到行动循环中感知视觉、音频和文本输入并进行推理，从而提升收敛性，并降低编排复杂度和推理成本。

它在 MMlongbench-Doc 和 OCRBenchV2 等文档智能排行榜上实现同类最佳准确率，同时在视频和音频理解、WorldSense、DailyOmni 和 VoiceBench 方面也处于领先地位。

除了准确性之外，MediaPerf——一个开放的行业基准，用于在质量、成本和吞吐量维度上，基于真实媒体数据和生产任务评估视频理解模型——显示 Nemotron 3 Nano Omni 在所有任务中实现了最高吞吐量，并在视频级标注方面实现了最低推理成本。阅读这篇文章了解更多信息。

Nemotron 3 Nano Omni 基于 30B‑A3B 混合专家（MoE）架构构建，会为每项任务和模态激活所需的专家，从而在规模化场景下实现高吞吐量和强大的多模态性能。凭借完全开放的权重、数据集和配方，开发者可以在本地、云端和企业环境中定制、部署并集成多模态子代理。

视频 1. NVIDIA Nemotron 3 Nano Omni 在开放的 MoE 架构中统一了视频、音频、图像和文本

同类最佳的效率和准确性

Nemotron 3 Nano Omni 支持跨多种 GPU 架构的硬件感知优化推理，包括 NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Blackwell GPU 系列，并支持流行的推理引擎，包括 vLLM 和 NVIDIA TensorRT-LLM。

它支持 FP8 和 NVFP4 量化、高效视频采样以及 NVIDIA 优化内核，以提供可预测的低延迟推理。结合基于卷积 3D 的时空处理，这些优化可在从工作站到数据中心和云部署的各类 GPU 上，以更低的计算成本实现持续的多模态感知。

Nemotron 3 Nano Omni 专为驱动子智能体而设计，可在更大的智能体系统中提供感知、上下文维护和多模态理解能力。它可与执行和规划模型（如 NVIDIA Nemotron 3 Super 和 NVIDIA Nemotron 3 Ultra）实现简洁集成，使智能体架构保持模块化、高效且可扩展。

以下基准测试在固定交互性阈值下评估性能——即每位用户仍能体验到响应迅速、实时交互的临界点。评估并非最大化原始并发量，而是在 x 轴上保持每用户吞吐量（每用户每秒 token 数）不变，并衡量在不降低用户体验的情况下可持续维持的系统总吞吐量。

A Pareto curve showing more efficient system capacity for a video use case for Nemotron 3 Nano Omni compared to an alternative open omni model. — 图 1. 在固定的单用户交互性阈值下，各模型维持的总系统吞吐量（tokens/sec/user）

在相同交互性阈值下进行视频推理时，Nemotron 3 Nano Omni 可维持更高的总吞吐量，相比其他开放式全模态模型，转化为最高约 9.2 倍的有效系统容量提升。

A Pareto curve showing more efficient system capacity for a multi-document use case for Nemotron 3 Nano Omni compared to an alternative open omni model.

在相同交互性阈值下进行多文档推理时，Nemotron 3 Nano Omni 可维持更高的总吞吐量，相比其他开放式全模态模型，转化为最高约 7.4 倍的有效系统容量提升。

在 Blackwell GPU 上，采用 NVFP4 量化的 Nemotron 3 Nano Omni 在面向企业级工作负载的开放式全模态模型中实现了最高吞吐量，这些工作负载涉及复杂文档、长程推理和大规模视频批处理。这些特性使其非常适合用于金融、医疗保健、科学发现、媒体与娱乐，以及以规模化方式处理海量视频和音频内容的广告技术平台中的智能体应用。

这一改进并非合成基准测试的假象。它反映了 Nemotron 3 Nano Omni 在真实智能体工作负载中部署时的架构效率。通过将多模态感知统一到单一模型循环中，并且仅激活每种模态所需的专家，它将原始模型效率转化为更多并发智能体、更高吞吐量以及更低的单任务成本，同时不牺牲准确性或响应速度。

A chart showing accuracy improvements across various industry-leading benchmarks for the previous model version, Nemotron Nano VL V2, compared to the new Nemotron 3 Nano Omni model, highlighting high performance for complex document intelli — 图 3. 从上一代 Nemotron Nano VL V2 模型到 Nemotron 3 Nano Omni，多模态准确率在行业领先的基准测试中均有所提升

Nemotron 3 Nano Omni 的底层机制是什么？

Nemotron 3 Nano Omni 是一款轻量级 30B-A3B 模型，专为高吞吐量的跨模态推理而设计。

模型设计：Nemotron 3 Nano Omni 架构

Nemotron 3 Nano Omni 架构将多模态感知与推理整合到一个 30B 混合 MoE 模型中，原生支持文本、图像、视频和音频输入，同时在智能体循环中保持统一的多模态上下文，并消除了对独立视觉、语音和语言模型的需求。

混合 MoE 核心架构：结合 Mamba 层以实现序列和记忆效率，并结合 transformer 层以实现精确推理。该设计提供更高的吞吐量，内存和计算效率最高提升 4 倍，使其适用于子智能体角色。
时空视觉处理与高效视频采样：为有效处理视频帧，Nemotron 3 Nano Omni 使用 3D 卷积来捕捉帧间运动。推理时的 Efficient Video Sampling（EVS）层将来自多帧的高密度视觉 token 压缩为一组简洁 token，使 LLM 能够处理而不会使其上下文窗口不堪重负。
多模态架构文本：Nemotron 3 Nano Omni 模型使用强大的文本模型作为中央解码器，保留基础模型的语言能力，并围绕文本训练跨模态桥接，后续章节将对此进行详细描述。这降低了多模态训练的不稳定性和成本，同时为连续感知任务提供最高效率和准确性。音频：NVIDIA Granary、Music Flamingo、Parakeet 音频集成建立在 NVIDIA Parakeet 编码器和专门数据集之上，这些数据集超越了简单转录。视觉：C-RADIOv4-H 和基于编码器的视频摘要为处理高分辨率图像和动态视频，Nemotron 3 Nano Omni 采用分层压缩策略。C-RADIOv4-H：图像使用 C-RADIOv4-H 基础模型以高分辨率进行处理。这作为一种稳健的视觉编码器，在高分辨率方面实现平衡

Nemotron 3 Nano Omni hybrid MoE architecture showing text, audio, and visual inputs combined into a single language model. — 图 4. 用于跨模态集成的 Nemotron 3 Nano Omni 混合 MoE 架构

训练方法：跨模态数据与训练

Nemotron 3 Nano Omni 模型在跨模态数据和指令微调基础上训练，专为真实世界的智能体环境而设计。它遵循涵盖图像、视频、音频和文本的指令，在更大的智能体系统中充当多模态感知与上下文子智能体。所有阶段均使用 NVIDIA NeMo Evaluator 库进行评估。

适配器和编码器训练：涵盖文档、截图、音频和视频的大规模数据，使其能够在企业感知任务中实现强大的泛化能力。
监督微调（SFT）：一个使用 NVIDIA Megatron-LM 实现的多阶段流程，逐步扩展模态覆盖范围，从视觉-语言和音频编码器开始，然后扩展上下文长度（16K → 49K → 262K），以构建统一的跨模态指令遵循能力。
SFT 后强化学习：在 25 种环境配置中进行多环境强化学习，使用 NVIDIA NeMo Gym 和 NeMo RL，通过超过 230 万次环境 rollout 来提升多模态任务和智能体工作流的鲁棒性。

开放设计：权重、数据和方案

Nemotron 3 Nano Omni 建立在透明性的基础之上，提供对权重、数据集和训练方案的完整访问权限。通过这种开源方式，开发者可以在本地自定义模型，在不影响隐私和安全的前提下确保最佳性能。

模型权重 Nemotron 3 Nano Omni 的完整参数检查点可在 Hugging Face 上获取，该模型也将作为 NVIDIA NIM 微服务提供。NVIDIA Nemotron Open Model License 为企业提供了保持数据控制并在任意位置部署的灵活性。

端到端训练与评估方案 Nemotron 3 Nano Omni 的完整预训练、后训练和评估方案现已提供，覆盖从预训练到对齐的完整流程。开发者可以复现训练，针对特定领域变体调整方案，或将其作为自身混合架构研究的起点。

部署手册与方案查看这些面向主要推理引擎的即用型手册，每个手册都包含配置模板、性能调优指导和参考脚本：

vLLM Cookbook：面向 Nemotron 3 Nano Omni 的高吞吐量连续批处理和流式处理。
SGLang Cookbook：针对多智能体工具调用工作负载优化的快速、轻量级推理。
NVIDIA TensorRT LLM Cookbook：具备潜在 MoE 内核的完全优化 TensorRT LLM 引擎，用于生产级低延迟部署。
Dynamo 部署方案：为多模态 Nemotron 3 Nano Omni 提供解耦式服务、智能路由、多层 KV 缓存和自动扩展支持。

微调手册和方案针对不同训练阶段的手册也已提供，每个手册都包含配置模板、性能调优指导和参考脚本：

使用 Nemotron 3 Nano Omni 的端到端多模态文档智能手册。
使用 NVIDIA NeMo Megatron-Bridge 在 Nemotron 3 Nano Omni 上进行 LoRA SFT。
使用 NVIDIA NeMo Automodel 在 Nemotron 3 Nano Omni 上进行 LoRA SFT。
使用 NeMo RL recipe 和 cookbook 在 Nemotron 3 Nano Omni 上进行 GRPO/MPO。

开放数据集借助 Nemotron 3 Nano 和 Nemotron 3 Super，NVIDIA 发布了业内最全面的面向基于文本的智能体 AI 的开放数据栈，其中包括：10T+ 预训练 token、40M+ 后训练样本、20 多种 RL 环境配置以及完整训练 recipe，全部开放可用。

Nemotron 3 Nano Omni 将这一承诺从文本扩展到多模态，在文本、音频、图像和视频方面提供同等程度的开放性。

适配器和编码器训练规模：约 127B token，覆盖文本+图像、文本+视频、文本+音频以及文本+视频+音频等混合模态，体现了现实世界中的情境化交互，而非单一模态数据。
面向真实世界任务的后训练：约 1.24 亿个经过精选的样例，涵盖多模态组合（文本+音频、文本+图像、文本+视频，以及文本+视频+音频），其结构旨在支持文档推理、计算机使用和长程工作流。
用于智能体训练的 RL 环境：20 个 RL 数据集，覆盖 25 个环境，涵盖 5 项新的多模态任务——视觉定位、图表和文档理解、视觉关键型 STEM 问题、视频理解以及自动语音识别——将 Nemotron 的 RL 流水线从文本扩展到视觉和音频。

NVIDIA NeMo Data Designer 合成数据生成

还提供了使用 NVIDIA NeMo Data Designer 构建的合成数据生成（SDG）流水线，用于对 Nemotron 3 Nano Omni 进行复杂长文档理解任务的后训练。通过迭代式流水线开发、训练和失败分析，一系列生成约 1140 万个合成视觉问答对（约 450 亿 tokens）的流水线被纳入 Nemotron 3 Nano Omni 的最终训练混合数据中。

深入阅读关于迭代式 SDG 方法论的详细解析，了解哪些做法有效、哪些无效，以及一组流水线配方。SDG 流水线也作为 data designer recipes 提供。

图像训练数据以宽松许可发布在 huggingface.co/datasets/nvidia/Nemotron-Image-Training-v3。借助底层图像数据和模型，开发者可以检查、调整并扩展多模态训练流水线。对于历来维护相互隔离的视觉、语音和文档数据栈的企业而言，Omni 将这些整合为一个可用于生产的统一基础，从而降低了跨模态部署智能体 AI 的门槛。

由 Nemotron 3 Nano Omni 提供支持的 Claws

当与 NVIDIA OpenShell 运行时和各种智能体框架搭配使用时，Nemotron 3 Nano Omni 改变了与视频内容的交互方式：

原生视频理解：不同于基于转录内容产生幻觉的传统系统，Nemotron 3 Nano Omni 使用原生视觉-时间管线（具备 3D 卷积和高效视频采样）来观察屏幕上正在发生的事情。这使其能够实现近乎即时、高保真的转录和总结，并捕捉音频模型会遗漏的视觉上下文，例如图表或屏幕文字。

隐私优先的 claw 代理：通过 NemoClaw 运行这一技术栈，用户视频数据不会离开本地基础设施。NVIDIA NemoClaw 会在带有隐私路由器的 NVIDIA OpenShell 沙盒环境中安装 OpenClaw 代理，确保敏感录制内容保持安全，同时由 Nemotron 3 Nano Omni 驱动的子代理完成多模态理解的专门任务。

精准问答：借助先进的多模态推理，用户可以围绕自己的视频提出复杂、开放式问题。该代理利用 Nemotron 3 Nano Omni 的长 token 上下文窗口，提供带引用且准确的答案，同时不丢失上下文脉络。

阅读以下指南，了解有关在带有 OpenShell 的 NemoClaw 沙盒中通过 OpenClaw 和 Hermes Agent 运行 Nemotron 3 Nano Omni 的更多信息。查看从本地部署到真实视频推理的具体工作流实操。

开始使用 Nemotron 3 Nano Omni

Nemotron 3 Nano Omni 现已推出——这是一款开放、高效的多模态模型，旨在为智能体工作负载中的子智能体提供支持。你可以通过以下平台访问它：

Hugging Face 和 OpenRouter。
通过 SGLang 和 vLLM 进行推理。
用于在设备端运行 GGUF 检查点的本地运行时和工具，例如 Ollama、llama.cpp、Inference Snaps、LM Studio 和 Unsloth。
主要云服务提供商，包括 Amazon Web Services 和 Oracle Cloud Infrastructure。即将登陆 Microsoft Foundry。探索模型目录，并在你的 Azure 环境中直接使用 Nemotron 模型。
推理服务提供商，例如 Baseten、Canonical、Clarifai、DeepInfra、Eigen AI、fal.AI、FriendliAI 和 Fireworks AI。
NVIDIA Cloud Partners，包括 Bitdeer AI、Crusoe、DigitalOcean、GMI Cloud、Lightning AI、Nebius、Together AI 和 Vultr。
Dell Technologies 用于本地和混合企业部署。
NVIDIA NIM 提供 NVIDIA 优化体验，使用户能够轻松地直接从 build.nvidia.com 启动经过优化、可移植的推理，并在从工作站到云端的任何环境中运行。
NeMo Curator 使用此配方构建视频字幕生成流水线。
Jetson AI Lab 提供教程和模型基准，供开发者运行经过优化的 Nemotron 模型，以构建机器人和边缘 AI 应用。

如需深入了解该模型架构和设计，请阅读 Nemotron 3 Nano Omni 技术报告。

订阅 NVIDIA 新闻，并在 LinkedIn、X、Discord 和 YouTube 上关注 NVIDIA AI，及时了解 NVIDIA Nemotron 的最新动态。

访问 Nemotron 开发者页面，获取入门资源。在 Hugging Face 上探索开放的 Nemotron 模型和数据集，并在 build.nvidia.com 上探索 Blueprints。

通过 Nemotron 直播、教程以及 NVIDIA 论坛和 Discord 上的开发者社区进行互动。

NVIDIA Nemotron 3 Nano Omni 以单一高效开放模型驱动多模态智能体推理