元鉴
返回中文阅读流

Google DeepMind Blog

Gemma Scope 2:帮助 AI 安全社区深化对复杂语言模型行为的理解

随着 Gemma Scope 2 发布,面向整个 Gemma 3 系列的开放语言模型可解释性工具现已可用。

中文内容

已翻译official company source英文原文2025-12-16
2025年12月19日责任与安全

Gemma Scope 2:帮助 AI 安全社区深化对复杂语言模型行为的理解

语言模型可解释性团队

A dark, high-tech background featuring two distinct blocks of text framed by a central, translucent circle displaying the blue and white logo "GemmaScope 2." The image illustrates a Large Language Model (LLM) behavior shift driven by the ac
Your browser does not support the audio element.
收听文章,5分钟

大型语言模型(LLMs)能够完成令人惊叹的推理任务,但其内部决策过程在很大程度上仍不透明。如果系统未按预期运行,缺乏对其内部运作的可见性可能会使人难以准确找出其行为背后的原因。去年,我们通过 Gemma Scope 推进了可解释性科学的发展;Gemma Scope 是一套工具包,旨在帮助研究人员理解 Gemma 2 的内部运作,Gemma 2 是我们轻量级开放模型集合。

今天,我们发布 Gemma Scope 2:一套全面、开放的可解释性工具套件,适用于从 270M 到 27B 参数规模的所有 Gemma 3 模型。这些工具可以使我们追踪模型整个“脑部”中的潜在风险。

据我们所知,这是迄今为止 AI 实验室发布的规模最大的开源可解释性工具。开发 Gemma Scope 2 涉及存储约 110 PB 数据,并训练总计超过 1 万亿个参数。

随着 AI 持续发展,我们期待 AI 研究社区使用 Gemma Scope 2 调试涌现的模型行为,利用这些工具更好地审计和调试 AI 智能体,并最终加速开发实用且稳健的安全干预措施,以应对越狱、幻觉和谄媚等问题。

我们的交互式 Gemma Scope 2 演示可供试用,由 Neuronpedia 提供支持。

Gemma Scope 2 的新内容

可解释性研究旨在理解 AI 模型的内部运作和所学习到的算法。随着 AI 能力越来越强、复杂度越来越高,可解释性对于构建安全可靠的 AI 至关重要。

与前代一样,Gemma Scope 2 就像 Gemma 语言模型家族的一台显微镜。通过结合稀疏自编码器(SAEs)和转码器,它使研究人员能够观察模型内部,了解模型在“思考”什么,以及这些想法如何形成并与模型行为相连接。进而,它支持对越狱或其他与安全相关的 AI 行为开展更深入研究,例如模型所传达的推理与其内部状态之间的不一致。

最初的 Gemma Scope 支持了模型幻觉、识别模型已知的秘密以及训练更安全模型等关键安全领域的研究,而 Gemma Scope 2 通过重大升级支持更具雄心的研究:

  • 大规模全覆盖:我们为整个 Gemma 3 系列(最高 27B 参数)提供完整工具套件,这对于研究仅在规模扩大时才会出现的涌现行为至关重要,例如此前由 27b 规模的 C2S Scale 模型发现的行为,该模型帮助发现了一条新的潜在癌症治疗通路。虽然 Gemma Scope 2 并未在该模型上训练,但这是这些工具可能有能力理解的涌现行为类型的一个例子。
  • 用于破译复杂内部行为的更精细工具:Gemma Scope 2 包含在我们 Gemma 3 模型家族每一层上训练的 SAEs 和转码器。Skip-transcoders 和 Cross-layer transcoders 使破译分布在整个模型中的多步骤计算和算法变得更容易。
  • 先进训练技术:我们使用最先进的技术,尤其是 Matryoshka 训练技术,它有助于 SAEs 检测更有用的概念,并解决 Gemma Scope 中发现的某些缺陷。
  • 聊天机器人行为分析工具:我们还提供针对 Gemma 3 中为聊天用例调优版本的可解释性工具。这些工具能够分析复杂的多步骤行为,例如越狱、拒答机制和思维链忠实性。
This feature seems to represent online scams and fraudulent emails.This feature seems to represent online scams and fraudulent emails.
该可视化展示了 Gemma Scope 2 如何使用稀疏自编码器和转码器,向研究人员呈现模型如何判断一封潜在欺诈电子邮件。

推动该领域发展

通过发布 Gemma Scope 2,我们旨在让 AI 安全研究社区能够使用一套前沿可解释性工具推动该领域向前发展。这种新的访问水平对于应对只会出现在更大规模现代 LLMs 中的现实安全问题至关重要。

了解更多关于 Gemma Scope 的信息

相关文章

Gemma Scope:帮助安全社区阐明语言模型的内部运作

2024年7月模型

原文标题

Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior