中文内容
深化我们与英国人工智能安全研究所的合作
William Isaac 与 Owen Larter
与 AISI 的研究合作是我们与英国政府更广泛合作的重要组成部分,旨在加速安全且有益的人工智能发展进程。
基于合作基础
人工智能在协助治疗疾病、加速科学发现、创造经济繁荣以及应对气候变化方面,拥有造福人类的巨大潜力。为实现这些益处,我们必须将安全与责任置于开发工作的核心。针对广泛的潜在风险评估我们的模型,始终是我们安全战略的关键环节,而外部合作则是此项工作的重要组成部分。
正因如此,自 2023 年 11 月英国 AISI 成立以来,我们便与其展开合作,对能力最强的模型进行测试。我们坚定致力于支持英国 AISI 的目标,即为政府、产业界及更广泛的社会提供科学认知,以深入了解先进人工智能可能带来的潜在风险,并探索相应的解决方案与缓解措施。
我们正积极与 AISI 合作,为 AI 模型构建更严谨的评估体系;双方团队也在安全研究领域开展合作以推动该领域向前发展,其中包括近期关于 Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety 的研究工作。基于这一成果,今天我们将进一步深化合作关系,从模型测试拓展至涵盖多个领域的更广泛、更基础的研究。
合作内容
在此项新的研究合作中,我们将扩大合作范围,具体包括:
- 共享专有模型、数据与研究思路的访问权限,以加速研究进展
- 发布联合报告与出版物,向研究界共享研究成果
- 结合双方团队的专业知识,开展更多协作式安全研究
- 开展技术研讨,以应对复杂的安全挑战
重点研究领域
我们与 AISI 的联合研究聚焦于关键领域,在这些领域中,Google DeepMind 的专业知识、跨学科团队以及多年在负责任研究方面的开创性工作,将有助于提升 AI 系统的安全性与可靠性:
监控 AI 推理过程
我们将致力于开发监控 AI 系统“思维”的技术,该技术通常也被称为思维链(CoT)。这项工作建立在 Google DeepMind 先前研究的基础之上,同时也是我们近期与 AISI、OpenAI、Anthropic 及其他合作伙伴在此议题上的合作成果。监控 CoT 有助于我们了解 AI 系统如何生成答案,是对可解释性研究的有益补充。
理解社会与情感影响
我们将共同探究社会情感错配带来的伦理影响;即 AI 模型即便在技术上严格遵循指令,其行为仍可能偏离人类福祉的潜在风险。该研究将依托 Google DeepMind 现有的工作基础,该工作已为这一 AI 安全的关键领域划定了研究范畴。
评估经济系统
我们将通过在不同环境中模拟现实世界任务,来探索 AI 对经济系统的潜在影响。专家将对这些任务进行评分与验证,随后将根据复杂性或代表性等维度进行分类,以帮助预测长期劳动力市场影响等因素。
携手实现 AI 的积极效益
我们与 AISI 的合作,是我们致力于在缓解潜在风险的同时为全人类实现 AI 益处的关键一环。我们的整体战略涵盖前瞻性研究、与能力开发同步推进的深度安全训练、对模型的严格测试,以及开发更优的工具与框架,以深入理解并缓解相关风险。
健全的内部治理流程对于安全、负责任的AI开发同样至关重要,与能够带来全新视角和多元专业知识的独立外部专家开展合作也是如此。Google DeepMind的责任与安全委员会开展跨团队协作,监控新兴风险,审查伦理与安全评估,并落实相关的技术与政策缓解措施。我们还与Apollo Research、Vaultis、Dreadnode等其他外部专家合作,对我们的模型开展广泛的测试与评估,其中包括迄今为止最智能、最安全的Gemini 3。
此外,Google DeepMind还荣幸地成为Frontier Model Forum以及Partnership on AI的创始成员,我们在此致力于确保前沿AI模型的安全与负责任开发,并加强在重要安全议题上的协作。
我们希望,与AISI深化合作将有助于我们构建更稳健的AI安全方案,这不仅将惠及我们自身的机构,也将造福更广泛的行业以及所有与AI系统交互的用户。
相关文章
原文标题
Deepening our partnership with the UK AI Security Institute