元鉴
返回中文阅读流

Google DeepMind Blog

FACTS Benchmark Suite:系统评估大型语言模型的事实性

使用 FACTS Benchmark Suite 系统评估大型语言模型的事实性。

中文内容

已翻译official company source英文原文2025-12-09
December 9, 2025 Responsibility & Safety

FACTS Benchmark Suite:系统评估大型语言模型的事实性

FACTS 团队

A dark, abstract 3D visualization resembling a pie chart or a circular city map viewed from above. It is composed of many luminous vertical bars or spikes, with one large, triangular-shaped section highlighted in white and another section i

为了继续提升模型在这一行业性挑战上的表现,我们必须更好地理解模型在哪些使用场景中难以给出准确回应,并更好地衡量其在这些领域的事实性表现。

正文:FACTS Benchmark Suite

今天,我们与 Kaggle 合作推出 FACTS Benchmark Suite。它延续了我们此前开发 FACTS Grounding Benchmark 的工作,新增了三个事实性基准,包括:

  • Parametric Benchmark,用于衡量模型在事实型问答用例中准确调用其内部知识的能力。
  • Search Benchmark,用于测试模型将 Search 作为工具来检索信息并正确综合信息的能力。
  • Multimodal Benchmark,用于测试模型以事实准确的方式回答与输入图像相关提示的能力。

我们还通过 Grounding Benchmark - v2 更新了原有的 FACTS grounding benchmark,这是一个扩展基准,用于测试模型基于给定提示上下文提供回答的能力。

每个基准都经过精心整理,共形成 3,513 个样本,并于今天公开发布。与我们此前发布的做法类似,我们遵循行业标准实践,将一个评估集作为私有保留集。FACTS Benchmark Suite Score(或 FACTS Score)按四个基准中公开集和私有集的平均准确率计算。Kaggle 将负责 FACTS Benchmark Suite 的管理,包括拥有私有保留集、在这些基准上测试领先的 LLM,并在公开排行榜上托管结果。有关 FACTS 评估方法的更多细节可参见我们的技术报告。

基准概览

正文:Parametric Benchmark

FACTS Parametric benchmark 评估模型在不借助网页搜索等外部工具的情况下,准确回答事实性问题的能力。该基准中的所有问题都是由用户兴趣驱动、可通过 Wikipedia(LLM 预训练的标准来源)回答的“冷知识风格”问题。最终基准包含 1052 项公开集和 1052 项私有集。

Distribution of context domain (left) and distribution of the answer type (right) as a percent of the total set of questions in the Parametric benchmark.Distribution of context domain (left) and distribution of the answer type (right) as a percent of the total set of questions in the Parametric benchmark.
Parametric benchmark 中,上下文领域分布(左)和答案类型分布(右)占问题总集的百分比。

公开集中的一个典型提示会要求模型回答一个小众主题的简单问题,例如:“Who played harmonica on ‘The Rockford Files’ theme song?”

正文:Search Benchmark

相比之下,FACTS Search benchmark 评估模型使用网页搜索工具回答问题的能力。该基准被设计为即使在可访问网页的情况下,对 LLM 也具有挑战性,通常需要按顺序检索多个事实才能回答单个查询。所有模型都可使用同一个网页搜索工具,从而确保在隔离状态下测试模型能力,不受自定义网页检索设置这一混杂因素影响。FACTS Search 包含 890 项公开集和 994 项私有集。

Distribution of context domain (left) and distribution of the task requested by the user (right) as a percent of the total set of prompts in the Search benchmark.Distribution of context domain (left) and distribution of the task requested by the user (right) as a percent of the total set of prompts in the Search benchmark.
Search benchmark 中,上下文领域分布(左)和用户请求任务分布(右)占提示总集的百分比。

公开集中的以下示例被纳入,是因为它需要从多个网页检索信息:“在 1960 年夏季奥运会上击败 Vazik Kazarian 的英国拳击手、同样参加该届奥运会男子轻次中量级项目的摩洛哥拳击手,以及同时参加 1960 年和 1964 年夏季奥运会的丹麦拳击手,他们出生年份之和是多少?”

正文:Multimodal Benchmark

FACTS Multimodal benchmark 评估模型针对基于图像的问题生成事实准确文本的能力,这是现代多模态系统的一项关键能力。

该任务需要结合视觉锚定,即模型准确解释并连接视觉输入信息的能力,以及其内部或“参数化”的世界知识。该评估框架旨在确保回答既正确,又提供完整所需的全部必要信息。该基准包含 711 项公开集和 811 项私有集。

Distribution of image (left) and distribution of the question categories (right) as a part of the Multimodal benchmarkfigure03_dark_FACTS-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models-
作为 Multimodal benchmark 的一部分,图像分布(左)和问题类别分布(右)。

例如,Multimodal benchmark 公开集中的以下图像配有提示:“这种动物属于哪个属?”

Close-up photograph of a small, fuzzy brown moth or skipper butterfly with broad wings resting on a green leaf. The insect has large black eyes and antennae curved backward over its head.
Multimodal benchmark 中的一张示例图像(图片来源:Image: Racta apella by desertnaturalist,CC BY 4.0)

结果

我们在 FACTS Benchmark Suite 上评估了领先的 LLM,其中包括更新后的 FACTS Grounding v2。

下表列出了 15 个领先模型及其总体 FACTS score(随后分解为四个单项基准的得分:Grounding、Multimodal、Parametric 和 Search)。

figure05_light_FACTS-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models-figure05_dark_FACTS-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models-

Gemini 3 Pro 在总体表现上领先,FACTS Score 为 68.8%。尤其是,我们看到 Gemini 2.5 Pro 到 Gemini 3 Pro 在 Search 和 Parametric 分项上有显著提升,其中 FACTS Search 的错误率降低了 55%,FACTS Parametric 的错误率降低了 35%。总体而言,FACTS Multimodal 的得分最低。所有被评估模型的总体准确率均低于 70%,未来仍有相当大的进步空间。

除了 FACTS Benchmark Suite 之外,Gemini 在事实性方面的提升也体现在另一个事实性基准 SimpleQA Verified 上,其准确率从 Gemini 2.5 Pro 的 54.5% 提升到 Gemini 3 Pro 的 72.1%。SimpleQA Verified 测试 LLM 在短格式回答中的参数化知识。

展望未来

尽管 LLM 事实性仍是一个持续研究的领域,FACTS Benchmark Suite 和 Gemini 3 Pro 的结果体现了 Google 长期致力于让信息普遍可访问且有用的承诺。我们希望这项工作能鼓励对 LLM 事实性进行更深入研究,从而为依赖这些模型和产品的人们带来更好、更准确的模型与产品。

相关文章

FACTS Grounding:用于评估大型语言模型事实性的新基准

December 2024Responsibility & Safety

Gemini 3 开启智能新时代

November 2025Models

原文标题

FACTS Benchmark Suite: Systematically evaluating the factuality of large language models