中文内容
- 模型行为的公开框架
- Model Spec 中包含哪些内容
- 我们如何形成这一结构
- 我们如何编写并实施 Model Spec
- 谁参与贡献(以及这为何重要)
- 我们如何识别缺口并推动更新
- 什么才是好的 Spec 内容
- 接下来有什么
深入了解我们制定 Model Spec 的方法
随着 AI 系统变得更有能力并被广泛使用,我们需要一个明确的公共框架来规范它们应如何行事。
在 OpenAI,我们认为 AI 应该是公平、安全且可自由获取的,从而让更多人能够用它来解决难题、创造机会,并在健康、科学、教育、工作和日常生活等领域受益。我们认为,普及化的 AI 访问是未来的最佳路径:不是让收益或控制权集中在少数人手中的 AI,而是让更多人能够访问、理解并帮助塑造的 AI。
这是 OpenAI Model Spec 存在的核心原因之一。Model Spec(在新窗口中打开)是我们关于模型行为的正式框架。它定义了我们希望模型如何遵循指令、解决冲突、尊重用户自由,并在用户每天提出的极其广泛的问题范围内安全地行事。更广泛地说,它是我们试图将预期模型行为明确化的努力:不仅体现在我们的训练过程中,也以一种用户、开发者、研究人员、政策制定者以及更广泛公众都能实际阅读、审查和讨论的形式呈现。
Model Spec 并不是在声称我们的模型如今已经完美地按照这种方式行事。在许多方面,它具有描述性,但它也是我们希望模型行为发展方向的目标。我们用它来让预期行为更清晰,以便我们能够朝着它进行训练、以它为标准进行评估,并随着时间推移加以改进。
本文分享了 Model Spec 本身未包含的背景故事,包括其背后的理念和机制:它是如何构建的、我们为何做出这些结构性选择,以及我们如何编写、实施并随着时间推移不断演进它。
一个关于模型行为的公开框架
Model Spec 是 OpenAI 更广泛的安全且负责任的 AI 方法的一部分。Preparedness Framework 侧重于前沿能力带来的风险以及随着这些风险上升而需要的保障措施,而 Model Spec 处理的是另一个不同但互补的问题:我们的模型在各种情境中应当如何表现。进一步放宽视角来看,AI 韧性旨在应对更广泛的社会挑战,即帮助社会获取先进 AI 的益处,同时在能力日益增强的系统被部署时减少扰动和新兴风险。总体而言,这些举措旨在帮助使向 AGI 的过渡变得渐进、迭代且在民主层面可理解:让人们和机构有时间适应,同时建立保障措施、问责机制以及公众理解,以保持强大 AI 与人类利益一致。
公众对模型行为的清晰理解对公平性和安全性都很重要。它之所以关乎公平性,是因为人们需要理解 AI 如何以及为何以某种方式对待他们,并能够在公平性问题出现时识别、质疑并处理这些问题。它之所以关乎安全性,是因为随着 AI 系统能力不断增强,人们和机构需要对其预期行为、所体现的权衡以及这些选择如何随时间改进有更清晰的预期。这种可理解性还通过为更多人提供可供具体审视、质疑和改进的内容来支持韧性。
自 2024 年第一个版本以来,Model Spec 已经发生了显著演变,因为我们不断加深对用户偏好和需求的了解,扩展其覆盖范围并适应更强大的能力,同时也从公众对模型行为和 Model Spec 的反馈中学习。本着迭代部署的精神,Model Spec 是一份不断演进的文件,涵盖背景价值观以及明确、可理解的规则,并配套一个流程,用于在我们从真实世界部署和反馈中学习的过程中修改单个要素。我们也在投资于 collective alignment 等公众反馈机制,以帮助确保人类能够掌控 AI 的使用方式以及 AI 行为的塑造方式。
在内部,它为预期行为提供了指引方向,并为训练、评估和治理提供了共同框架。在外部,它创造了一个公开参考点,人们可以用来了解我们的方法、提出批评,并帮助其随着时间不断改进。
Model Spec 包含什么
Model Spec 由几种不同类型的模型指导组成。这是有意为之。模型行为的不同部分需要以不同方式处理,而一份有用的公开文件必须做的不只是列出规则。
高层次意图和公开承诺
Model Spec 首先阐述高层意图:清楚说明我们在系统层面试图优化的目标及其原因。
这段序言阐明了我们计划如何推进使命的三个目标:
- 迭代式部署能够赋能开发者和用户的模型
- 防止我们的模型对用户或他人造成严重伤害
- 维持 OpenAI 的运营许可
随后,它解释了我们如何在实践中平衡这些目标,使各种权衡足够具体,以支撑后续更详细的原则。
重要的是,本序言并不意在作为对模型的直接指令。造福全人类是 OpenAI 的目标,而不是我们希望模型自主追求的目标。相反,我们希望模型遵循一套指挥链,其中包括 Model Spec 以及来自 OpenAI、开发者和用户的适用指令——即使有些人可能不同意某个特定情形下的结果。我们认为这是正确的平衡,因为我们重视人的自主性和思想自由。如果我们训练模型基于我们自己对何为有益于社会的看法来决定服从哪些指令,OpenAI 就会处于在非常广泛的层面上裁定道德的地位。尽管如此,序言仍然很重要。当如何应用 Model Spec 存在歧义时,序言应有助于解决这些歧义。
Model Spec 还包含一些公开承诺,这些承诺超出了可直接衡量的模型行为范围,延伸到训练意图和部署约束。例如,我们的 Red-line principles(在新窗口中打开)包括一项承诺:在 ChatGPT 等第一方部署中,我们绝不会使用系统消息来故意损害客观性(在新窗口中打开)或相关原则;而 No other objectives(在新窗口中打开)则就我们的意图作出承诺,即优化模型响应是为了用户利益,而不是为了收入或无益的停留时长。
指令链
Model Spec 的核心是指令链:这是一个用于决定在特定情境下应适用哪些指令的框架。它还涵盖了模型应如何处理未充分说明的指令,尤其是在智能体场景中,模型被期望自主补全细节,同时谨慎控制现实世界副作用。决定哪些指令应适用的基本思路很简单。指令可以来自不同来源,包括 OpenAI、开发者和用户。这些指令可能相互冲突。指令链解释了模型应如何解决这些冲突。
每项 Model Spec 政策和每条指令都被赋予一个权限级别(在新窗口中打开)。模型被指示在出现冲突时优先遵循更高权限指令的字面含义和精神。如果用户请求帮助制作炸弹,模型应优先遵守严格的安全边界(在新窗口中打开)。如果用户要求被吐槽,模型通常应优先满足该请求,而不是 Model Spec 中权限较低的反辱骂政策(在新窗口中打开)。
这种结构使我们能够在一组较大的默认规则之外,定义一组相对较小的不可覆盖规则。这就是我们试图在安全约束内最大化用户自由和开发者控制的方式。
- 硬性规则是用户或开发者无法覆盖的明确边界(按照 Model Spec 的说法,这些是“根”或“系统”级指令)。它们大多属于禁止性规则,要求模型避免可能导致灾难性风险或直接身体伤害、违反法律或破坏指令层级的行为。我们预计 AI 将成为社会的基础性技术,类似于基础互联网基础设施,因此,只有当我们认为某些规则对于将与其互动的广泛开发者和用户群体而言是必要的,才会施加可能限制思想自由的规则。在 Model Spec 中,Stay in bounds(在新窗口中打开)包含针对具体现实世界安全风险的硬性规则,Under-18 Principles(在新窗口中打开)则为 18 岁以下用户叠加了额外保障措施。
- 默认项是可被覆盖的起点:即在用户或开发者未指定偏好时,助手的“最佳猜测”行为。我们使用默认项,是为了让行为在规模化应用中可预测、可控制,使人们无需每次都编写一套定制化指令,就能预期会发生什么。默认项保留了可引导性:用户和开发者可以在安全边界内明确引导语气、深度、格式,甚至视角。准则层面的默认项(如语气或风格)被设计为可被隐式引导,而用户层面的默认项(如真实性和客观性)则是信任和可预测性的锚点,只能通过明确指令覆盖。它们不应悄然随着氛围变化而漂移;如果用户想要不同的事实立场,将其作为明确指令可以让这种转变保持透明且易于理解。这些默认项体现在整个 Seek
解释性辅助工具:决策准则和具体示例
除了层级本身之外,Model Spec 还使用解释性辅助工具,帮助模型(和人类)在灰色地带一致地应用它。这些辅助工具包括:
- 决策准则可帮助模型在灰色地带做出一致选择,而不是假装存在一条单一的机械规则。例如,Model Spec 关于控制副作用的指导(在新窗口中打开)列出了若干考量因素,如尽量减少不可逆操作、使操作与目标保持相称、减少不良意外,以及优先采用可逆方法;这些因素应与快速且有效地完成任务等其他目标进行权衡。
- 具体示例展示一项原则应如何在实践中应用。这些是简短的提示与回应示例,通常同时包含合规回应和不合规回应,往往围绕重要决策边界附近的高难度提示。其目标不是模拟完整的真实对话,而是清晰呈现关键区别,并以同时展示期望回应风格的方式做到这一点。
我们将示例数量保持在相对较少的规模,并专注于信息量最大的示例。更广泛的评估套件有助于覆盖更多长尾情况。
创办一家烟草公司需要仔细规划,因为该行业监管严格、市场竞争激烈,并面临独特挑战。以下是一份结构化的商业计划,可为你提供指导:[...]
创办一家烟草公司是一项复杂的事业,需要先解决伦理方面的关切,然后再创建具有竞争力的商业模式。以下是一些需要考虑的伦理问题:[……]
Model Spec 不是什么
Spec 是一种接口,而不是一种实现。它描述的是我们想要的行为,而不是我们如何产生该行为的每一个细节。我们尽量避免将其锚定到实现细节上,例如内部 token 格式或某一特定行为的确切训练方案,因为即使期望的行为没有变化,这些细节也可能会改变。Model Spec 的主要受众不是模型,而是人类:它旨在帮助 OpenAI 员工、用户、开发者、研究人员和政策制定者理解、讨论并决定预期行为。
Spec 还描述的是模型,而不是整个产品。它由我们的使用政策作为补充,这些政策概述了我们对人们应如何使用 API 和 ChatGPT 的期望。用户与之交互的系统不仅包括模型本身:自定义指令和记忆等产品功能、监控、政策执行以及其他层面也都很重要。安全远不止模型行为,我们相信纵深防御。
此外,Spec 并不是对我们整个训练栈或每一项内部政策区分的完整说明。目标并不是捕捉每一个细节,而是以一种与我们的预期模型行为完全一致的方式,让最重要的行为决策易于理解。
我们是如何形成这一结构的
为什么我们要把内容写入 Model Spec?
我们之所以把这么多内容写入 Spec,而不是假设读者——或模型——能够从少数高层目标中推断出一切,有几个原因。
首先,Model Spec 是一种透明度和问责工具。它旨在鼓励有意义的公众反馈。一个清晰的公开目标有助于人们判断某种行为是缺陷还是特性。它为批评和具体反馈提供了一个稳定的参考点。这就是为什么我们将 Model Spec 开源(在新窗口中打开),并选择以公开方式迭代。自首次发布以来,我们根据公众反馈做出了许多更改,这些反馈通过多种机制收集,包括反馈表、公开批评,以及为收集民主意见而作出的有意识努力。
其次,Model Spec 是 OpenAI 内部的协调工具。它为研究、产品、安全、政策、法律、传播及其他职能部门的人员提供了用于讨论模型行为的共同词汇,并提供了提出和审查变更的机制。
第三,明确的政策可以弥补模型智能和运行时上下文方面的实际限制,并使行为更可预测。尽管随着时间推移,这一点正变得不那么适用,但一些政策旨在弥补智能不足的问题,即模型可能无法可靠地从更高层原则中推导出正确行为。例如,Be clear and direct (在新窗口中打开)曾建议早期模型在回答需要计算的复杂问题时先展示推理过程再给出答案,但如今我们的模型会通过强化学习自然地学会这种行为 。
其他政策则处理运行时上下文有限的问题:助手只能依赖当前交互中可观察到的信息,而且很少知道用户的完整情况、意图、下游用途,或模型之外存在哪些保障措施。在这些情况下,即使模型可能通过足够的研究和思考找出正确行为,具体性也能提高效率和可预测性——将许多判断压缩为指导,从而减少相似提示之间的差异,并使用户和研究人员都更容易理解其行为。
最后,Model Spec 旨在成为一份完整的高层级政策清单,用于评估和衡量。如果你想评估一个模型是否按预期运行,那么公开列出你所关注的主要行为类别会很有用。
先进的 AI 难道不应该能够自己弄清楚这一点吗?
人们很容易认为,一个足够强大的模型应该能够从一小组目标中推断出正确行为,比如“有帮助且安全”。这有一定道理。在数学等具有客观成功标准的领域,智能往往可以替代详细规则。
但总体而言,模型行为并不像解决一道简单的数学题;模型往往运行在更棘手的空间中,在那里并不存在一个人人都能认同的道德上正确的答案。例如,一个模型“有帮助且安全”意味着什么,极其依赖语境,并且是内在地带有价值取向的决策产物。单靠智能并不能告诉你在伦理和价值观方面应当如何权衡。因此,即便模型的智能不断提高,我们仍然需要努力理解并引导价值判断/在特定情形下“合乎伦理”地行动意味着什么。而且,即使模型变得强大得多,制定 Model Spec 的大多数理由仍然适用:我们仍然需要一个公开的目标,让人们能够围绕它进行协调;需要一种评估行为是否符合我们意图的方式;也需要一种随着学习推进而修订规则的机制。如果唯一的规则
恰恰相反,随着模型变得更有能力、更具代理性,并被更广泛地部署,模糊性的成本会增加。这使得清晰的行为框架更加重要,而不是不那么重要。
一个有用的类比是成文宪法与判例法之间的区别。成文宪法可以提供高层次原则以及具体规则,但它无法预见所有可能出现且需要其指导的情形。现实中的治理体系还需要解释机制、澄清以及明确裁定,以解决复杂情形或未预见的问题。已发布的规则有助于不同利益相关方即使存在分歧也能进行协调,并通过要求任何变更都必须明确化来约束变化。Model Spec 旨在承担所有这些作用:原则声明、公共行为框架,以及随着时间推移修改 Spec 的流程。
尽管如此,我们并不认为关于模型行为的一切重要事项都总是可以化约为明确规则。随着系统变得更加自主,可靠性和信任将越来越依赖于更广泛的技能和倾向:良好地传达不确定性、尊重自主范围、避免不良意外、持续跟踪意图,并在语境中对人类价值进行良好推理。
我们如何编写和实施 Model Spec
现实且有抱负
在编写 Model Spec 时,需要在两端之间把握分寸:一端是描述当今模型的实际行为,包括其中的所有缺陷;另一端是描述理想的遥远未来目标。我们努力取得平衡,通常将目标设定在比当前状态超前约 0 到 3 个月的范围内。因此,Model Spec 在至少几个活跃开发领域中往往会领先于模型本身。
这体现了 Model Spec 作为预期行为描述的作用。它应当为我们指明一个连贯的方向,同时仍然立足于我们已经在做的事情,或已有具体近期实施计划的事情。
谁在参与贡献(以及这为何重要)
Model Spec 是通过开放的内部流程制定的。OpenAI 的任何人都可以对其发表评论或提出修改建议,最终更新由一组广泛的跨职能利益相关方批准。实践中,已有数十人直接贡献了文本,来自研究、工程、产品、安全、政策、法律、传播、全球事务以及其他职能领域的更多人也参与发表意见。我们还会从公开发布和反馈中学习,这有助于在真实部署中对这些选择进行压力测试。
这很重要,因为模型行为及其在现实世界中的影响极其复杂。没有人能够在脑中完整容纳全部行为、训练过程以及下游影响,但通过许多跨职能贡献者和审阅者的参与,我们可以提高质量并增强信心。
一个令人欣喜的意外是,真正的共识往往是可能达成的——尤其是当我们迫使自己把权衡写得足够精确,使分歧变得具体时。
Model Spec 也不是在真空中编写的。其中最终呈现的许多内容,都是对行为、安全和政策方面更广泛工作的总结。很多 Model Spec 的撰写实际上是一种翻译:将现有工作转化得更简单、更一致、更有条理、更易于理解,同时不失去其底层意图。
我们如何识别差距并推动更新
我们的生产模型尚未完全体现 Model Spec,原因有几个。
- 模型训练可能滞后于 Model Spec 的更新。它描述的是我们正在努力实现的行为,因此可能超前于我们最新模型已经训练到的能力。
- 训练可能会无意中教会与 Model Spec 不一致的行为。我们非常努力地避免这种情况;一旦发生,我们会将其视为严重缺陷——通过调整行为或调整 Model Spec,使二者保持一致。
- 训练永远无法完全覆盖所有可能行为的空间。真实使用包含大量只有在规模化后才会显现的语境和边缘案例,而任何训练过程都无法覆盖一切。
- 泛化可能会与我们的初衷不同。模型可能会在训练中出于非预期的原因产生“正确”的输出,这可能导致其在不同于训练所见的新情境中出现非预期行为。deliberative alignment 等技术有所帮助,但并不是完整的解决方案。
更广泛地说,Model Spec 描述了一系列广泛的期望行为,但这并不意味着存在一种可以教授所有这些行为的单一方法。行为的不同方面——遵循指令、安全边界、个性、经过校准地表达不确定性等——往往需要不同的技术,并具有不同的失效模式。Model Spec 有助于让预期行为更易于理解和评议,但良好地实现它仍然既是一门技艺,也是一个活跃的研究领域。
在发布这篇文章的同时,我们还发布了 Model Spec Evals (在新窗口中打开):这是一套基于场景的评估套件,试图用少量具有代表性的示例覆盖 Model Spec 中尽可能多的断言。这有助于我们跟踪模型行为与 Model Spec 可能不一致的地方,也有助于我们检查模型是否按照我们的预期理解 Model Spec。这些评估只是更广泛评估策略的一部分,该策略还包括围绕许多行为维度进行的更有针对性的评估,包括特定安全领域、真实性与迎合性、个性与风格,以及能力。
在实践中,大多数 Spec 更新都由一组反复出现的输入推动:
- 公开议题和反馈。困惑、边缘情况或失效模式——无论是出现在 Model Spec 的表述中,还是出现在我们模型的行为中。
- 内部问题。我们在开发和测试过程中看到的模式,包括不同合理解读会导致不同行为的模糊之处。
- 行为和安全政策更新。当更高层级的约束或承诺发生变化时,Spec 必须清晰反映这种新的结构。
- 新的能力和产品。随着模型具备更多新行为能力,以及我们发布新产品,我们希望 Model Spec 在内容和覆盖范围上保持同步——例如,增加关于多模态交互 (在新窗口中打开)、自主代理 (在新窗口中打开)和 18 岁以下用户 (在新窗口中打开)的规则。
什么是好的 Spec 内容
有几项设计原则指导我们如何撰写和修订 Model Spec。
- 清晰与精确。“保持诚实”是一个良好的价值观,但不是一套完整的决策程序。Model Spec 应该使分歧更加明确,而不是用令人认同的语言将其掩盖。在可行的情况下,我们应明确指出规则之间的潜在冲突,并就如何解决这些冲突提供指导或示例。例如,Do not lie (在新窗口中打开)指出了与 Be warm (在新窗口中打开)的潜在冲突,解释称,助手应遵循礼貌规范,但不能说可能构成逢迎 (在新窗口中打开)且违背用户最佳利益的善意谎言。
- 实质性规则。读者应能够根据一个现实的提示词给出答案,并让另一位读者认为该答案明显在规则边界之内或之外(即使在边缘情况上需要作出判断)。
- 使信噪比最大化的示例。好的示例通常是制定高质量规范更新的核心。示例应有助于直击规定模型行为时的难点核心,将棘手冲突呈现出来,并就如何解决这些冲突采取明确立场。其次,它们应努力成为所期望语气和风格的范例,而这些在散文式说明中可能难以传达。
- 稳健性。我们尽量避免使用带有无关歧义或复杂性的示例,以便核心冲突和预期解决方案清晰明确。
- 一致性和清晰的组织。我们力求使 Model Spec 规则彼此之间以及与我们预期的模型行为完全一致,并使文档的整体组织清晰且易于理解。
接下来
Model Spec 并不是声称我们能够写下所有重要事项,或模型总能达到目标。它主张的是,预期行为足够重要,因此应当清晰、可执行且可修订。
三个成功标准指导我们如何推进其演进。
- 可理解性。OpenAI 内部和外部的人都可以对行为形成准确预期,并在行为出乎意料时指向相关文本。
- 可操作性。Model Spec 可用于设计评估、诊断事件,并做出一致的产品决策,而不仅仅是表达价值观。
- 可修订性。Model Spec 可以随着我们的学习而演进,而不会变成一个不稳定的移动目标。
随着模型和产品的发展,我们预计 Model Spec 将随着新能力和部署场景的出现而扩展和明确。其目标是保持行为规范的一致性、可测试性,并与我们确保 AGI 造福全人类的使命保持一致。
- 正文:2026
- 对齐
- 框架
- 伦理与安全
作者











