中文内容
FACTS Benchmark Suite:系统评估大型语言模型的事实性
FACTS 团队
为了继续提升模型在这一行业性挑战上的表现,我们必须更好地理解模型在哪些使用场景中难以给出准确回应,并更好地衡量其在这些领域的事实性表现。
正文:FACTS Benchmark Suite
今天,我们与 Kaggle 合作推出 FACTS Benchmark Suite。它延续了我们此前开发 FACTS Grounding Benchmark 的工作,新增了三个事实性基准,包括:
- Parametric Benchmark,用于衡量模型在事实型问答用例中准确调用其内部知识的能力。
- Search Benchmark,用于测试模型将 Search 作为工具来检索信息并正确综合信息的能力。
- Multimodal Benchmark,用于测试模型以事实准确的方式回答与输入图像相关提示的能力。
我们还通过 Grounding Benchmark - v2 更新了原有的 FACTS grounding benchmark,这是一个扩展基准,用于测试模型基于给定提示上下文提供回答的能力。
每个基准都经过精心整理,共形成 3,513 个样本,并于今天公开发布。与我们此前发布的做法类似,我们遵循行业标准实践,将一个评估集作为私有保留集。FACTS Benchmark Suite Score(或 FACTS Score)按四个基准中公开集和私有集的平均准确率计算。Kaggle 将负责 FACTS Benchmark Suite 的管理,包括拥有私有保留集、在这些基准上测试领先的 LLM,并在公开排行榜上托管结果。有关 FACTS 评估方法的更多细节可参见我们的技术报告。
基准概览
正文:Parametric Benchmark
FACTS Parametric benchmark 评估模型在不借助网页搜索等外部工具的情况下,准确回答事实性问题的能力。该基准中的所有问题都是由用户兴趣驱动、可通过 Wikipedia(LLM 预训练的标准来源)回答的“冷知识风格”问题。最终基准包含 1052 项公开集和 1052 项私有集。
公开集中的一个典型提示会要求模型回答一个小众主题的简单问题,例如:“Who played harmonica on ‘The Rockford Files’ theme song?”
正文:Search Benchmark
相比之下,FACTS Search benchmark 评估模型使用网页搜索工具回答问题的能力。该基准被设计为即使在可访问网页的情况下,对 LLM 也具有挑战性,通常需要按顺序检索多个事实才能回答单个查询。所有模型都可使用同一个网页搜索工具,从而确保在隔离状态下测试模型能力,不受自定义网页检索设置这一混杂因素影响。FACTS Search 包含 890 项公开集和 994 项私有集。
公开集中的以下示例被纳入,是因为它需要从多个网页检索信息:“在 1960 年夏季奥运会上击败 Vazik Kazarian 的英国拳击手、同样参加该届奥运会男子轻次中量级项目的摩洛哥拳击手,以及同时参加 1960 年和 1964 年夏季奥运会的丹麦拳击手,他们出生年份之和是多少?”
正文:Multimodal Benchmark
FACTS Multimodal benchmark 评估模型针对基于图像的问题生成事实准确文本的能力,这是现代多模态系统的一项关键能力。
该任务需要结合视觉锚定,即模型准确解释并连接视觉输入信息的能力,以及其内部或“参数化”的世界知识。该评估框架旨在确保回答既正确,又提供完整所需的全部必要信息。该基准包含 711 项公开集和 811 项私有集。
例如,Multimodal benchmark 公开集中的以下图像配有提示:“这种动物属于哪个属?”
结果
我们在 FACTS Benchmark Suite 上评估了领先的 LLM,其中包括更新后的 FACTS Grounding v2。
下表列出了 15 个领先模型及其总体 FACTS score(随后分解为四个单项基准的得分:Grounding、Multimodal、Parametric 和 Search)。
Gemini 3 Pro 在总体表现上领先,FACTS Score 为 68.8%。尤其是,我们看到 Gemini 2.5 Pro 到 Gemini 3 Pro 在 Search 和 Parametric 分项上有显著提升,其中 FACTS Search 的错误率降低了 55%,FACTS Parametric 的错误率降低了 35%。总体而言,FACTS Multimodal 的得分最低。所有被评估模型的总体准确率均低于 70%,未来仍有相当大的进步空间。
除了 FACTS Benchmark Suite 之外,Gemini 在事实性方面的提升也体现在另一个事实性基准 SimpleQA Verified 上,其准确率从 Gemini 2.5 Pro 的 54.5% 提升到 Gemini 3 Pro 的 72.1%。SimpleQA Verified 测试 LLM 在短格式回答中的参数化知识。
展望未来
尽管 LLM 事实性仍是一个持续研究的领域,FACTS Benchmark Suite 和 Gemini 3 Pro 的结果体现了 Google 长期致力于让信息普遍可访问且有用的承诺。我们希望这项工作能鼓励对 LLM 事实性进行更深入研究,从而为依赖这些模型和产品的人们带来更好、更准确的模型与产品。
原文标题
FACTS Benchmark Suite: Systematically evaluating the factuality of large language models