中文内容

已翻译official company source英文原文2025-12-09

December 9, 2025 Responsibility & Safety

FACTS Benchmark Suite：系统评估大型语言模型的事实性

FACTS 团队

A dark, abstract 3D visualization resembling a pie chart or a circular city map viewed from above. It is composed of many luminous vertical bars or spikes, with one large, triangular-shaped section highlighted in white and another section i

为了继续提升模型在这一行业性挑战上的表现，我们必须更好地理解模型在哪些使用场景中难以给出准确回应，并更好地衡量其在这些领域的事实性表现。

正文：FACTS Benchmark Suite

今天，我们与 Kaggle 合作推出 FACTS Benchmark Suite。它延续了我们此前开发 FACTS Grounding Benchmark 的工作，新增了三个事实性基准，包括：

Parametric Benchmark，用于衡量模型在事实型问答用例中准确调用其内部知识的能力。
Search Benchmark，用于测试模型将 Search 作为工具来检索信息并正确综合信息的能力。
Multimodal Benchmark，用于测试模型以事实准确的方式回答与输入图像相关提示的能力。

我们还通过 Grounding Benchmark - v2 更新了原有的 FACTS grounding benchmark，这是一个扩展基准，用于测试模型基于给定提示上下文提供回答的能力。

每个基准都经过精心整理，共形成 3,513 个样本，并于今天公开发布。与我们此前发布的做法类似，我们遵循行业标准实践，将一个评估集作为私有保留集。FACTS Benchmark Suite Score（或 FACTS Score）按四个基准中公开集和私有集的平均准确率计算。Kaggle 将负责 FACTS Benchmark Suite 的管理，包括拥有私有保留集、在这些基准上测试领先的 LLM，并在公开排行榜上托管结果。有关 FACTS 评估方法的更多细节可参见我们的技术报告。

基准概览

正文：Parametric Benchmark

FACTS Parametric benchmark 评估模型在不借助网页搜索等外部工具的情况下，准确回答事实性问题的能力。该基准中的所有问题都是由用户兴趣驱动、可通过 Wikipedia（LLM 预训练的标准来源）回答的“冷知识风格”问题。最终基准包含 1052 项公开集和 1052 项私有集。

Distribution of context domain (left) and distribution of the answer type (right) as a percent of the total set of questions in the Parametric benchmark. — Parametric benchmark 中，上下文领域分布（左）和答案类型分布（右）占问题总集的百分比。

公开集中的一个典型提示会要求模型回答一个小众主题的简单问题，例如：“Who played harmonica on ‘The Rockford Files’ theme song?”

正文：Search Benchmark

相比之下，FACTS Search benchmark 评估模型使用网页搜索工具回答问题的能力。该基准被设计为即使在可访问网页的情况下，对 LLM 也具有挑战性，通常需要按顺序检索多个事实才能回答单个查询。所有模型都可使用同一个网页搜索工具，从而确保在隔离状态下测试模型能力，不受自定义网页检索设置这一混杂因素影响。FACTS Search 包含 890 项公开集和 994 项私有集。

Distribution of context domain (left) and distribution of the task requested by the user (right) as a percent of the total set of prompts in the Search benchmark. — Search benchmark 中，上下文领域分布（左）和用户请求任务分布（右）占提示总集的百分比。

公开集中的以下示例被纳入，是因为它需要从多个网页检索信息：“在 1960 年夏季奥运会上击败 Vazik Kazarian 的英国拳击手、同样参加该届奥运会男子轻次中量级项目的摩洛哥拳击手，以及同时参加 1960 年和 1964 年夏季奥运会的丹麦拳击手，他们出生年份之和是多少？”

正文：Multimodal Benchmark

FACTS Multimodal benchmark 评估模型针对基于图像的问题生成事实准确文本的能力，这是现代多模态系统的一项关键能力。

该任务需要结合视觉锚定，即模型准确解释并连接视觉输入信息的能力，以及其内部或“参数化”的世界知识。该评估框架旨在确保回答既正确，又提供完整所需的全部必要信息。该基准包含 711 项公开集和 811 项私有集。

Distribution of image (left) and distribution of the question categories (right) as a part of the Multimodal benchmark — 作为 Multimodal benchmark 的一部分，图像分布（左）和问题类别分布（右）。

figure03_dark_FACTS-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models- — 作为 Multimodal benchmark 的一部分，图像分布（左）和问题类别分布（右）。

例如，Multimodal benchmark 公开集中的以下图像配有提示：“这种动物属于哪个属？”

Close-up photograph of a small, fuzzy brown moth or skipper butterfly with broad wings resting on a green leaf. The insect has large black eyes and antennae curved backward over its head. — Multimodal benchmark 中的一张示例图像（图片来源：Image: Racta apella by desertnaturalist，CC BY 4.0）

结果

我们在 FACTS Benchmark Suite 上评估了领先的 LLM，其中包括更新后的 FACTS Grounding v2。

下表列出了 15 个领先模型及其总体 FACTS score（随后分解为四个单项基准的得分：Grounding、Multimodal、Parametric 和 Search）。

figure05_light_FACTS-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models-

figure05_dark_FACTS-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models-

Gemini 3 Pro 在总体表现上领先，FACTS Score 为 68.8%。尤其是，我们看到 Gemini 2.5 Pro 到 Gemini 3 Pro 在 Search 和 Parametric 分项上有显著提升，其中 FACTS Search 的错误率降低了 55%，FACTS Parametric 的错误率降低了 35%。总体而言，FACTS Multimodal 的得分最低。所有被评估模型的总体准确率均低于 70%，未来仍有相当大的进步空间。

除了 FACTS Benchmark Suite 之外，Gemini 在事实性方面的提升也体现在另一个事实性基准 SimpleQA Verified 上，其准确率从 Gemini 2.5 Pro 的 54.5% 提升到 Gemini 3 Pro 的 72.1%。SimpleQA Verified 测试 LLM 在短格式回答中的参数化知识。

展望未来

尽管 LLM 事实性仍是一个持续研究的领域，FACTS Benchmark Suite 和 Gemini 3 Pro 的结果体现了 Google 长期致力于让信息普遍可访问且有用的承诺。我们希望这项工作能鼓励对 LLM 事实性进行更深入研究，从而为依赖这些模型和产品的人们带来更好、更准确的模型与产品。

FACTS Grounding：用于评估大型语言模型事实性的新基准

December 2024Responsibility & Safety

Learn more

Gemini 3 开启智能新时代

November 2025Models

Learn more

评测

Learn more

FACTS Benchmark Suite：系统评估大型语言模型的事实性

中文内容

FACTS Benchmark Suite：系统评估大型语言模型的事实性

正文：FACTS Benchmark Suite

基准概览

正文：Parametric Benchmark

正文：Search Benchmark

正文：Multimodal Benchmark

结果

展望未来

相关文章

FACTS Grounding：用于评估大型语言模型事实性的新基准

Gemini 3 开启智能新时代

评测

原文标题