元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-06-05

随着 AI 模型日益复杂，且在加州 AB-2013 和欧盟 AI Act 等框架下监管审查不断加强，软件团队面临的挑战已不只是交付优秀代码：他们需要在模型发布前生成全面、可审计的模型文档。

模型卡描述模型的工作方式、预期用途和许可证、训练数据、性能以及局限性。它们促进透明度和问责制，使下游用户——客户、监管机构和受影响的社区——在选择和部署 AI 时能够做出知情决策。其受众不止开发者：政策制定者、采购团队和风险评估人员都依赖模型卡来评估适用性，并比较不同供应商的模型。

在实践中，手动创建模型卡繁琐且缓慢。文档往往落后于开发进度，元数据到发布时常常已经过时。随着模型变得更复杂，格式不一致和缺少必填字段会造成不必要的审计风险，并减缓采用速度。NVIDIA model card generator（MCG）toolkit 可通过直接读取源数据，在一分钟内以 Model Card++ 格式自动化并标准化模型文档。

介绍 NVIDIA MCG toolkit

MCG toolkit 是一个容器化流水线，通过读取模型源代码来自动生成模型卡。它遵循模块化的“摄取 → 提取 → 渲染”流水线。中央编排器接收你的请求——可以是 URL 或上传文件——协调工作流，并返回一份完整的模型卡。每个阶段都作为独立服务运行，因此你可以更新或替换单个组件，而不影响流水线的其余部分。

MCG toolkit 的工作方式

该工具包提供交互式 UI，可接受 URL（GitHub、GitLab、HuggingFace 或任何公共网页）或上传文件（ZIP、PDF、DOCX 或 Markdown）。同时也提供 REST API，用于程序化集成。

随后，数据流经三个阶段：

输入 → 摄取。系统获取内容，并将其处理为文档块，按类型分类：文档、配置文件和代码。
文档 → 提取。提取阶段将已摄取文档送入由 NVIDIA Inference Microservices（NIM）驱动的检索增强生成（RAG）流水线。NVIDIA Nemotron RAG 负责高精度嵌入（llama-nemotron-embed-1b-v2）和重排序（llama-nemotron-rerank-500m-v2），并针对代码、配置文件和文档分别使用检索器，以优先处理信号更强的来源。核心提取由 GPT-OSS-120B 执行，它读取检索到的段落，并应用专家策划的格式和内容指南——NVIDIA MC++ 模板以及字段级风格指南——以预期格式生成合规信息。验证步骤会在响应被接受前进行检查。输出为结构化 JSON。概览完成后，相同内容会流向子卡片阶段，生成四个 Model Card++ 子卡片：Bias、Explainability、Privac
JSON → 渲染。结构化 JSON 使用可配置模板渲染为人类可读的 Markdown。你可以在界面中编辑内容，并在下载或与其他系统集成前重新渲染。最终产物是一份完整模型卡——包含概览和四个子卡片——可供审阅或发布。

A flowchart diagram showing the Model Card Generation toolkit architecture. Source code inputs such as GitHub repository, GitLab repository, HuggingFace repository, website URL, or local files flow through document-specific parsing, then th — 图 1. MCG toolkit 架构：通过直接读取源代码生成全面的模型卡

为灵活性而设计

你不会被锁定在某一个模型、模板或标准中。该工具包可在三个维度上自定义：

1）模型：系统为语言模型、嵌入和重排序使用可配置端点。可指向不同的 NIM 或兼容 API，以匹配你的性能、成本或数据驻留要求，无论你是在较小模型上进行原型开发，还是扩展到生产环境。

2）模板：输出格式由 Markdown 模板驱动。组织可以针对 Model Card++、内部标准或新兴监管格式进行自定义，而无需修改提取逻辑。输出也符合 CycloneDX 标准。当出现新的披露要求时，你更新模板，而不是更新流水线。

3）指南：字段级指导——需要捕获什么、如何表述——来自可配置知识库。随着法规或领域需求演进，可更新指南而无需触碰核心代码。同一条流水线可服务于不同行业和合规制度。

在你需要的地方运行

该工具包以容器化服务形式交付，支持一条命令完成设置。编排器、摄取、提取和子卡片阶段各自作为独立容器运行，并包含基础设施（数据库和任务队列）。不存在专有云锁定：MCG 可在本地或你自己的云中运行，并支持 Kubernetes，帮助你在自有基础设施上启动。

性能结果

我们在公共模型仓库上对该工具包进行了标准化测试，以衡量完成率、生成时间和准确性。每个字段都根据源文档评分。准确性按正确字段数除以非占位字段数计算。下方表 1 显示结果。

ModelTime to GenerateCompletion RateAccuracyNVIDIA Nemotron Nano 8B56s97%92%NVIDIA Cosmos Reason 286s94%82%NVIDIA Parakeet65s92%87%NVIDIA Proteina52s94%82%Third-party models(DeepSeek-V3, Evo2, Gemma, Llama)~80s avg~89%~80%

表 1. 在标准化测试模型上的 MC++ Overview 性能。完成率 = 含有有意义内容的字段数 / 字段总数。准确性 = 正确数 / 非占位响应总数。

对于大多数仓库，该工具包可在一分钟内生成完整模型卡（概览加四个子卡片）。总体完成率达到 91%（第三方基线），在标准化测试集上的准确性为 76%。完成率和准确性因模型和仓库而异；README 和配置文件更丰富的仓库会取得更高结果。

当存在支持性文档且代码库结构良好时，该工具包表现最佳，并会尽可能使用代码分析进行补充。当文档稀少或缺失时，填充的字段会减少；系统不会猜测，而是显示“未找到”或“信息不可用”，以标示需要人工审查的缺口。

我们还测试了完全移除文档时会发生什么。使用标准测试集中的相同仓库，我们删除所有 .pdf、.md 和 .txt 文件，并仅针对代码重新运行该工具包。在五个模型中，平均完成率从 91% 降至 61%；严格准确性仅按可验证字段衡量，从标准测试中的 76% 降至 28%，而标准测试只对已完成字段计算准确性。

61% 的完成率表明，该工具包仍能仅从代码、配置文件和仓库结构中提取有意义的信号；准确性下降反映了文档对正确填写这些字段有多大贡献。

关键在于，该工具包不会通过猜测来弥补。如果它无法有把握地填充字段，这些字段会显示为“未找到”或“信息不可用”，这使其既适合作为文档仍在编写团队的缺口发现工具，也适合作为文档已完整团队的生成工具。

早期采用者和行业合作伙伴

Oracle 是首批将 MCG Toolkit 集成到生产基础设施中的合作伙伴之一。作为其 OCI AI 产品的一部分（涵盖从 A10 到 GB200 NVL72 的 GPU 配置），Oracle 部署了 OCI container engine for Kubernetes 与 AI 产品的工具包组合，在由 Object Storage 支撑 NIM 模型的标准 VCN 架构内运行 MCG pod 和 NIM pod。其部署使用 Llama-3.3-Nemotron-Super-49B-v1 作为核心提取模型，并由 Nemotron RAG 处理嵌入和重排序。GPT-OSS-120B 模型托管并测试于配备 2xH100 卡的专用 AI 集群以及该模型的按需产品上。OCI 支持越来越强大的 GPU 基础设施，用于大规模 AI 训练和推理；对一致、可审计模型文档的需求也随之增长。OCI Dedicated AI Cluster（DAC）是一种私有、fu

开始使用

如果你希望成为早期采用者，请联系 Trustworthy AI 团队。我们很乐意讨论合作。

还没准备好使用全自动工具包？Trustworthy AI GitHub 仓库提供开源 Model Card++ 模板，以及面向蓝图、数据集、容器和系统的 AI 透明度卡，你现在就可以使用。

文档应与您交付的模型保持同步。无论你采用 MCG toolkit，还是从我们的开源模板开始，NVIDIA 的 Trustworthy AI 计划都致力于让这件事变得更容易。

如何使用 NVIDIA MCG Toolkit 自动化生成 AI 模型文档