元鉴
返回中文阅读流

Google DeepMind Blog

加强我们的 Frontier Safety Framework

我们正在加强 Frontier Safety Framework(FSF),以帮助识别并缓解先进 AI 模型带来的严重风险。

中文内容

已翻译official company source英文原文2025-10-23
2025年9月22日责任与安全

加强我们的 Frontier Safety Framework

正文:Four Flynn、Helen King、Anca Dragan

更新于2026年4月17日

AI 突破正在改变我们的日常生活,从推进数学、生物学和天文学,到实现个性化教育的潜力。随着我们构建日益强大的 AI 模型,我们致力于负责任地开发技术,并采取基于证据的方法,抢先应对新兴风险。

今天,我们发布 Frontier Safety Framework(FSF)的第三版迭代——这是我们迄今为止用于识别和缓解先进 AI 模型严重风险的最全面方法。

此次更新建立在我们与产业界、学术界和政府专家持续合作的基础之上。我们还纳入了实施先前版本所得的经验教训,以及前沿 AI 安全领域不断演进的最佳实践。

框架的关键更新

应对有害操纵风险

在此次更新中,我们引入了一个聚焦于有害操纵的 Critical Capability Level(CCL)*——具体而言,是指具备强大操纵能力的 AI 模型,这类能力可能被滥用,在与模型互动的过程中,于已识别的高风险情境中系统性且显著地改变信念和行为,并可合理预期会造成严重规模的额外伤害。

这一新增内容建立在我们为识别和评估生成式 AI 驱动操纵的机制所开展的研究之上,并将其操作化。展望未来,我们将继续在这一领域投入,以更好地理解和衡量与有害操纵相关的风险。

调整我们应对失准风险的方法

我们还扩展了框架,以应对未来可能出现的情景:失准的 AI 模型可能干扰操作人员指挥、修改或关闭其运行的能力。

我们上一版框架包含一种以工具性推理 CCL 为中心的探索性方法(即针对 AI 模型开始进行欺骗性思考时的警示级别);而在此次更新中,我们现在为机器学习研究与开发 CCL 提供了进一步的协议,重点关注那些可能将 AI 研发加速到潜在不稳定水平的模型。

除这些能力带来的滥用风险外,在这些能力水平上,模型潜在的非定向行动也会产生失准风险;同时,这类模型很可能被整合进 AI 开发与部署流程。

为应对 CCL 带来的风险,当达到相关 CCL 时,我们会在外部发布前进行安全论证审查。这包括开展详细分析,以证明风险已被降低到可管理水平。对于高级机器学习研究与开发 CCL,大规模内部部署也可能带来风险,因此我们现在正将这种方法扩展到包括此类部署。

强化我们的风险评估流程

我们的框架旨在按照风险严重程度相称地加以应对。我们专门细化了 CCL 定义,以识别那些需要最严格治理和缓解策略的关键威胁。在达到具体 CCL 阈值之前,我们会继续实施安全与安保缓解措施,并将其作为标准模型开发方法的一部分。

最后,在此次更新中,我们更详细地介绍了风险评估流程。在核心早期预警评估的基础上,我们描述了如何开展整体性评估,包括系统性风险识别、对模型能力的全面分析,以及对风险可接受性的明确判定。

FSF 3.1:引入受跟踪能力等级

截至2026年4月17日,我们正在向 Frontier Safety Framework 的某些领域加入 Tracked Capability Levels(TCLs),引入一种新的能力等级,以帮助我们更早发现和评估潜在的、较不极端的风险。

我们还更详细地说明了完整的风险管理流程,从初始识别到缓解。

推进我们对前沿安全的承诺

Frontier Safety Framework 体现了我们持续的承诺:随着能力向 AGI 迈进,采取科学且基于证据的方法来跟踪并抢先应对 AI 风险。通过扩展风险领域并强化风险评估流程,我们旨在确保变革性 AI 造福人类,同时最大限度减少潜在伤害。

我们的框架将继续根据新研究、利益相关方意见以及实施经验不断演进。我们仍致力于与产业界、学术界和政府开展协作。

通往有益 AGI 的道路不仅需要技术突破,也需要稳健的框架来缓解沿途风险。我们希望更新后的 Frontier Safety Framework 能为这项集体努力作出有意义的贡献。

脚注

*我们围绕称为 Critical Capability Levels(CCLs)的能力阈值构建框架。这些能力等级指的是:在没有缓解措施的情况下,前沿 AI 模型或系统可能带来严重伤害风险升高的能力水平。

原文标题

Strengthening our Frontier Safety Framework