中文内容

已翻译official company source英文原文2025-10-23

2025年9月22日责任与安全

加强我们的 Frontier Safety Framework

正文：Four Flynn、Helen King、Anca Dragan

更新于2026年4月17日

AI 突破正在改变我们的日常生活，从推进数学、生物学和天文学，到实现个性化教育的潜力。随着我们构建日益强大的 AI 模型，我们致力于负责任地开发技术，并采取基于证据的方法，抢先应对新兴风险。

今天，我们发布 Frontier Safety Framework（FSF）的第三版迭代——这是我们迄今为止用于识别和缓解先进 AI 模型严重风险的最全面方法。

此次更新建立在我们与产业界、学术界和政府专家持续合作的基础之上。我们还纳入了实施先前版本所得的经验教训，以及前沿 AI 安全领域不断演进的最佳实践。

在此次更新中，我们引入了一个聚焦于有害操纵的 Critical Capability Level（CCL）*——具体而言，是指具备强大操纵能力的 AI 模型，这类能力可能被滥用，在与模型互动的过程中，于已识别的高风险情境中系统性且显著地改变信念和行为，并可合理预期会造成严重规模的额外伤害。

这一新增内容建立在我们为识别和评估生成式 AI 驱动操纵的机制所开展的研究之上，并将其操作化。展望未来，我们将继续在这一领域投入，以更好地理解和衡量与有害操纵相关的风险。

我们还扩展了框架，以应对未来可能出现的情景：失准的 AI 模型可能干扰操作人员指挥、修改或关闭其运行的能力。

我们上一版框架包含一种以工具性推理 CCL 为中心的探索性方法（即针对 AI 模型开始进行欺骗性思考时的警示级别）；而在此次更新中，我们现在为机器学习研究与开发 CCL 提供了进一步的协议，重点关注那些可能将 AI 研发加速到潜在不稳定水平的模型。

除这些能力带来的滥用风险外，在这些能力水平上，模型潜在的非定向行动也会产生失准风险；同时，这类模型很可能被整合进 AI 开发与部署流程。

为应对 CCL 带来的风险，当达到相关 CCL 时，我们会在外部发布前进行安全论证审查。这包括开展详细分析，以证明风险已被降低到可管理水平。对于高级机器学习研究与开发 CCL，大规模内部部署也可能带来风险，因此我们现在正将这种方法扩展到包括此类部署。

我们的框架旨在按照风险严重程度相称地加以应对。我们专门细化了 CCL 定义，以识别那些需要最严格治理和缓解策略的关键威胁。在达到具体 CCL 阈值之前，我们会继续实施安全与安保缓解措施，并将其作为标准模型开发方法的一部分。

最后，在此次更新中，我们更详细地介绍了风险评估流程。在核心早期预警评估的基础上，我们描述了如何开展整体性评估，包括系统性风险识别、对模型能力的全面分析，以及对风险可接受性的明确判定。

截至2026年4月17日，我们正在向 Frontier Safety Framework 的某些领域加入 Tracked Capability Levels（TCLs），引入一种新的能力等级，以帮助我们更早发现和评估潜在的、较不极端的风险。

我们还更详细地说明了完整的风险管理流程，从初始识别到缓解。

Frontier Safety Framework 体现了我们持续的承诺：随着能力向 AGI 迈进，采取科学且基于证据的方法来跟踪并抢先应对 AI 风险。通过扩展风险领域并强化风险评估流程，我们旨在确保变革性 AI 造福人类，同时最大限度减少潜在伤害。

我们的框架将继续根据新研究、利益相关方意见以及实施经验不断演进。我们仍致力于与产业界、学术界和政府开展协作。

通往有益 AGI 的道路不仅需要技术突破，也需要稳健的框架来缓解沿途风险。我们希望更新后的 Frontier Safety Framework 能为这项集体努力作出有意义的贡献。

了解更多

脚注

*我们围绕称为 Critical Capability Levels（CCLs）的能力阈值构建框架。这些能力等级指的是：在没有缓解措施的情况下，前沿 AI 模型或系统可能带来严重伤害风险升高的能力水平。