元鉴
返回中文阅读流

Hugging Face Blog

Nemotron 3.5 内容安全:面向全球企业 AI 的可定制多模态安全

来自 Hugging Face Blog 的最新公开更新。

中文内容

已翻译official company source英文原文2026-06-04

Nemotron 3.5 内容安全:面向全球企业 AI 的可定制多模态安全

企业 + 文章 发布于 2026 年 6 月 4 日

Nemotron 3.5 Content Safety 新增内容 1. 统一的多模态评估 2. 全球语言覆盖 3. 自定义策略执行 4. 推理轨迹(THINK 模式)5. 安全数据集 模型架构 推理 训练数据 基准测试 延迟 弥合基准差距 入门 过去两年里,NVIDIA 的内容安全技术栈已从一个聚焦于英文文本的分类器,发展为一系列专用模型——每个模型都将覆盖范围扩展到新的模态、语言和推理模式。Nemotron 3 Content Safety 于 2026 年 3 月发布,首次在一个 40 亿参数模型中结合了多模态和多语言能力。今天,我们发布 Nemotron 3.5 Content Safety,它完成了这一进程:一个单一模型,将多模态输入、多语言覆盖、自定义企业策略执行和可审计推理统一到一次推理调用中。

本文介绍 3.5 中的变化、每项新能力背后的设计决策,以及如何将该模型集成到生产环境的安全流水线中。

Nemotron 3.5 Content Safety 新增内容

1. 统一的多模态评估

Nemotron 3 引入了图像理解;Nemotron 3.5 则深化了多模态集成。该模型将用户提示、可选图像以及可选的助手回复作为一个单一的上下文窗口,并针对组合输入生成连贯的安全性判定。将三者一起评估——而不是分别独立打分——弥合了多模态安全场景中一个众所周知的缺口:那些只有在文本与图像之间、或请求与回复之间的交互中才显现出来的政策违规,现在可以在一次处理中被捕捉到。

2. 全球语言覆盖

Nemotron 3.5 保持了其前代对 12 种语言的显式训练覆盖——英语、法语、西班牙语、德语、中文、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语和意大利语——同时还继承了 Gemma 3 基础模型在约 140 种语言上的强大零样本泛化能力。这意味着,在训练数据稀缺的市场(例如东南亚语言、斯堪的纳维亚语言、资源较少的非洲语言)进行部署时,可以受益于基础模型的多语言迁移,而无需单独微调。

3. 自定义策略执行

相较于 Nemotron 3,这是 3.5 中最重要的架构新增功能。生产部署很少在单一通用安全分类体系下运行。医疗健康平台的风险画像不同于金融服务聊天机器人、开发者工具 IDE 或儿童教育应用。Nemotron 3.5 接受与输入一并提供的自定义策略规范。模型在给出判定时会基于该策略进行推理,而不是完全依赖内置分类体系。这将 Nemotron Content Safety Reasoning 4B 中首次引入的工作扩展到了完整的多模态、多语言场景。

4. 推理轨迹(THINK 模式)

Nemotron 3.5 中的每个安全判定都可以通过可选的 think mode 附带可审计的推理轨迹。启用后,模型会先输出其逐步推理过程,然后给出最终的 safe / unsafe 标签,并可选择性地输出被违反的类别。

<think>
The user prompt asks for guidance on acquiring a controlled substance without a prescription.
The assistant response provides specific sourcing steps and references an online marketplace.
This interaction violates the Criminal Planning/Confessions and Controlled Substances categories.
The image (a pharmacy exterior) provides locational context but does not alter the verdict.
</think>

User Safety: unsafe
Response Safety: unsafe
Safety Categories: Criminal Planning/Confessions, Controlled Substances

当延迟是主要约束时,可以禁用 THINK 模式,以恢复到 Nemotron 3 中可用的同样低延迟二元判定。

5. 安全数据集

随着 Nemotron 3.5 的发布,我们也发布了我们的安全数据集。这是一个重要的里程碑,因为大多数开源安全模型通常不提供训练集或评估集。在多模态领域,这一问题更为严重,因为图像或视频等制品通常源自许可条款受限的资源。Nemotron 3.5 Content Safety Dataset 是多模态、多语言的,并包含用于训练模型的安全推理轨迹。这些推理轨迹以两步方式生成,使其保持简洁,类似于 Nemotron Content Safety Reasoning 4B 模型。

模型架构

Nemotron 3.5 Content Safety 基于 Google Gemma 3 4B IT(40 亿参数)构建,提供 128K 上下文窗口、强大的视觉-语言推理能力以及广泛的多语言覆盖。NVIDIA 使用 LoRA 适配器对这一基础模型进行微调,在保持模型足够紧凑、可在 8GB+ VRAM GPU 上实时部署的同时,引入有针对性的安全分类行为。

推理接口支持三种输出模式:

模式 1——低延迟二元判定:

User Safety: safe
Response Safety: unsafe

模式 2——带类别的二元判定:

User Safety: safe
Response Safety: unsafe
Safety Categories: Violence, Criminal Planning/Confessions

模式 3 — THINK 模式(推理 + 判定):

<think>
[step-by-step reasoning trace]
</think>

User Safety: unsafe
Response Safety: unsafe
Safety Categories: [categories]

安全分类体系遵循 Aegis 2.0 框架:包含与 MLCommons 安全分类体系对齐的 13 个核心类别,以及 10 个细粒度子类别。这种对齐使其能够与在 Aegis 分类体系数据集上进行基准测试的其他开放式和封闭式护栏系统进行直接比较。

推理

推理是内容安全分类的强大助推器,因为它提供了生产级 AI 系统所需的必要上下文、定制化能力和问责性,尤其是在企业和受监管环境中。

支持自定义和情境化策略执行

推理使内容安全模型能够在推理时动态解释并执行以自然语言定义的自定义、特定领域策略。这是必要的,因为生产部署很少在单一、通用的安全分类体系下运行。金融服务聊天机器人的风险特征不同于儿童教育应用,后者可能对脏话的容忍度更低。此能力支持:

  • 类别抑制:禁用不相关的类别,例如,当 DevOps 工具处理短语“terminate a process”(终止一个进程)时,防止触发“violence”(暴力)类别。
  • 自定义类别注入:定义特定于组织监管或产品政策的专有风险类别。

提供可审计且有文档记录的理由

推理轨迹展示了模型在给出最终安全或不安全判定之前的逐步逻辑。这种有文档记录的理由具有多种用途:

  • 合规与审计日志:受监管行业通常要求为内容审核决策提供有文档记录的理由。
  • 人工审核:审核人员可以审查为何得出某项判定,以识别系统性的模型错误。
  • 策略迭代:这些轨迹揭示了模型如何解读边界情况,使团队能够迭代式地细化和改进自定义策略语言。

延迟

虽然推理可能会引入延迟,但 Nemotron 模型通过将推理链压缩为简洁摘要来解决这一问题,以限制输出 token 数并提高效率。这一过程分为两个步骤,类似于其前代模型 Nemotron-Content-Safety-Reasoning-4B 中所采用的方法。第一步,我们使用更大、更强大的模型(如 Qwen 397B),基于所提供的提示词、图像和回答生成思维链推理轨迹。我们还提供了样本的真实标签,以避免任何误分类进入推理轨迹。第二步,我们使用另一个大型模型(如 Qwen 80B)使这些推理轨迹更加简洁。我们特别指示该模型改写第一步生成的原始轨迹,使其不超过 3 句话。根据我们的实验,生成的大多数推理轨迹都低于

高效的推理轨迹优化支持低延迟的自定义策略执行。此外,推理轨迹提供了一种有价值的训练信号,可用于训练专门的审核模型。开发者可以选择双模式运行:在通用任务中禁用推理以实现最低延迟,或在复杂策略中启用推理。

训练数据

驱动 Nemotron 3.5 的数据集是在 Nemotron 3 所使用的多模态、多语言混合数据基础上的演进,并增加了针对推理和自定义策略能力的内容。我们使用了以下数据来源:

  • 来自 Nemotron Safety Guard Dataset v3 的多语言文本安全数据,采样自具有文化细微差异的子集,并在各安全类别以及安全/不安全划分中按比例表示。
  • 由 NVIDIA 以英语收集并经人工标注的多模态数据,已翻译成 12 种语言。关键的是,99% 的训练图像是真实照片——而非合成生成图像。这直接应对了多模态安全基准领域的一个已知弱点:现有数据集如 VLGuard 和 MM-SafetyBench 在很大程度上依赖 SDXL 生成的图像,而这些图像缺乏生产内容所具有的文化质感和对抗复杂性。尽管由于许可限制,并非所有这些真实图像都能发布,但我们仍能够发布来自 Wikimedia 的部分图像以及合成生成图像。
  • 来自 Nemotron VLM Dataset v2 的安全多模态数据,涵盖扫描文档、图表、论文和示意图及其相关查询——确保模型不会对良性的专业内容过度标记。
  • 使用由更大的教师模型生成的思维链输出所衍生的推理轨迹——先由 Qwen 397B 生成,再使用 Qwen 80B 缩短——用于教会模型如何推理。
  • 来自 CantTalkAboutThis 数据集的主题遵循数据,由一系列企业部署场景(医疗保健、金融、银行、教育等)中的策略规范/判定对组成。
  • 合成数据约占总训练量的 10%,主要用于丰富越狱模式、生成罕见的政策违规示例,以及生成多模态对抗性案例。

基准测试

Nemotron 3.5 Content Safety 在多语言、多模态和自定义政策安全基准上进行了评估,包括 VLGuard、MM-SafetyBench、PolyGuard、RTP-LX、Aya Redteaming、XSafety、MultiJail、Aegis、Dynaguardrail 和 CoSA。这些评估反映了企业安全的核心生产挑战:在全球语言、文本和图像输入以及特定领域政策之间应用一致的护栏,同时不增加显著延迟。

Nemotron 3 在多模态有害内容测试中以 84% 的平均准确率奠定了强劲基线,延迟约为 LlamaGuard-4-12B 的一半。Nemotron 3.5 保持了这种紧凑型 4B 模型的高效性,同时增加了自定义政策支持和推理轨迹。

在多语言和多模态安全基准测试中,Nemotron 3.5 在保持紧凑占用空间的同时,实现了强大的有害内容分类准确率。这一点很重要,因为许多安全模型仍然以英语优先、仅支持文本,或在生产流水线中反复运行的成本过高。Nemotron 3.5 旨在将多语言覆盖、多模态分类、自定义策略支持和低延迟部署整合到一个模型中。

figure1

图 1. Nemotron 3.5 Content Safety 在多语言和多模态安全基准测试中实现了强大的有害内容分类准确率,在所评估的基准测试集上平均约为 85%。

语言层面的结果凸显了多语言安全对全球企业 AI 的重要性。在 Multilingual Aegis 上,Nemotron 3.5 在 12 种语言中的有害内容分类准确率平均为 96.5%。在 RTP-LX 上,其平均准确率为 88.8%,Aegis 与 RTP-LX 的综合平均值为 92.7%。这种一致性有助于团队在面向客户、员工和合作伙伴的工作流中应用相同的安全态势,而不是依赖仅限英语的审核或单独的区域安全模型。

图 2. Nemotron 3.5 Content Safety 在 Multilingual Aegis Cultural + Adapted(提示分类)(harmful-f1)上,跨 12 种语言的有害内容分类准确率平均为 97%。

图 3. Nemotron 3.5 Content Safety 在 RTPLX(提示分类)(harmful-f1)上针对 12 种语言的有害内容分类准确率平均达到 89%。

仅有准确率并不足以满足生产环境护栏的要求。安全模型还必须足够高效,能够在内容被处理、返回或路由到下游之前运行。Nemotron 3.5 Content Safety 紧凑的 4B 设计有助于降低重复安全检查的成本和延迟,使多语言和多模态护栏能够切实用于真实世界的 AI 应用。

延迟

在默认(无 THINK)模式下,延迟特征与 Nemotron 3 相比没有变化。THINK 模式会增加与轨迹长度成正比的推理时间,但这种开销是可预测的,并且可以独立于同步审核循环单独规划预算——例如,可将 THINK 模式评估作为审计流水线的一部分异步运行,同时由默认模式处理实时决策。

图 4. 与另一种多模态安全模型相比,Nemotron 3.5 Content Safety 在多模态基准测试中的端到端延迟降低了 3 倍。

与另一种推理安全模型相比,在启用推理时,我们的模型生成的 token 最多减少 50%,因此在成本和延迟方面都很高效。

弥合基准差距

多模态安全研究中一个反复出现的主题是现有评估基础设施存在差距。Nemotron 3.5 的开发遇到了与更广泛文献中记录的相同差距:

  • 仅文本覆盖:被最广泛引用的安全基准(WildGuard、XSTest、HarmBench)都是仅文本的。无法从文本基准结果推断多模态性能。
  • 合成图像质量:现有的大多数多模态基准使用的是 AI 生成图像(通常为 SDXL),而不是真实照片,这低估了真实生产内容的难度。
  • 真实图像授权:图库照片许可禁止在 AI 数据集中再分发,造成了研究条件与生产条件之间的结构性差距。

NVIDIA 的多模态训练数据——包含真实图像和具有文化细微差异的多语言提示词——旨在为模型训练填补其中一些差距。用于评估的基准差距仍然是更广泛安全研究社区面临的一个开放问题。

入门指南

Nemotron 3.5 Content Safety 在 Hugging Face 上以 NVIDIA Open Model License 提供,可用于研究和商业用途,并随附训练数据集。它支持 transformers、vLLM 和 SGLang,并在 build.nvidia.com 上作为生产级 NVIDIA NIM 提供,适用于需要预打包、GPU 优化推理微服务的团队。

开发者还可以通过 Baseten、Eigen AI、DeepInfra、OpenRouter 和 Vultr 等推理平台访问该模型。

对于自定义策略工作流,NVIDIA 提供了一个兼容 Claude 和 Codex 的技能,用于生成自定义策略,并提供了展示如何使用该模型的 cookbooks。自定义策略和推理轨迹可帮助团队根据特定领域规则调整安全行为,同时保持决策可审计。

原文标题

Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI