中文内容

已翻译official company source英文原文2025-11-11

2025年11月11日研究

教会 AI 更像我们一样看世界

正文：Andrew Lampinen、Klaus Greff

A conceptual diagram illustrating AI and human alignment. Nine images (e.g., a giraffe, a car, and a tent) are organised near colourful dot clusters, with lines grouping related concepts, such as a giraffe with a sea turtle and a car with a

Your browser does not support the audio element.

收听文章，10分钟

“视觉”人工智能（AI）无处不在。我们用它整理照片、识别未知花卉并操控汽车。但这些强大的系统并不总是像我们一样“看见”世界，有时还会表现出令人意外的行为。例如，一个能够识别数百种汽车制造商和车型的 AI 系统，可能仍无法把握汽车与飞机之间的共同点，即二者都是主要由金属制成的大型交通工具。

为了更好地理解这些差异，今天我们在 Nature 发表了一篇新论文，分析 AI 系统以不同于人类的方式组织视觉世界的重要差异。我们提出了一种使这些系统更好地与人类知识对齐的方法，并表明解决这些差异可以提升其稳健性和泛化能力。

这项工作是朝着构建更直观、更值得信赖的 AI 系统迈出的一步。

为什么 AI 难以应对“找不同”

当你看到一只猫时，你的大脑会形成一种心理表征，捕捉关于这只猫的一切，从颜色和毛茸茸程度等基本概念，到其“猫性”等高层概念。AI 视觉模型也会生成表征，即把图像映射到高维空间中的点，相似的事物（如两只羊）彼此靠近，不同的事物（一只羊和一块蛋糕）相距较远。

为了理解人类和模型的表征组织方式有何不同，我们使用了认知科学中的经典“找不同”任务，要求人类和模型都从给定的三张图像中选出哪一张与另外两张不匹配。这个测试揭示了它们“看作”最相似的是哪两项。

有时，所有人都会意见一致。给出一只貘、一只羊和一个生日蛋糕时，人类和模型都会可靠地选择蛋糕作为不同项。另一些时候，正确答案并不明确，人类和模型会出现分歧。

有趣的是，我们还发现许多情形中，人类对答案高度一致，但 AI 模型却答错了。以下第三个示例中，大多数人都认为海星是不同项。但大多数视觉模型更关注背景颜色和纹理等表面特征，因此选择了猫。

“找不同”任务的三个示例。三行展示了自然世界中主体的三张图像。第一行展示了一个人类与模型一致的简单任务。第二行展示了人类与 AI 模型存在分歧的示例。第三行展示了人类往往意见一致，但模型作出不同选择的示例。

这个例子说明了人类与 AI 之间存在系统性错位，我们在许多不同的视觉模型中都观察到了这一点，从图像分类器到无监督模型皆如此。

整体问题可以通过 AI 内部地图的二维投影（PCA）来观察。

下方左侧展示了一个视觉模型的内部地图，它看起来缺乏结构，动物、食物和家具等不同类别的表征混杂在一起。右侧是我们应用对齐方法后的改进表征地图，其中类别得到了清晰组织。

两张地图展示了一个视觉模型对许多不同类别物体的表征。对齐前（左）没有可见的组织结构。对齐后（右）表征按类别进行了有意义的组织。

一种多步骤对齐方法

认知科学家收集了 THINGS 数据集，其中包含数百万个人类“找不同”判断，我们本可以用它来帮助解决视觉对齐问题。遗憾的是，该数据集只使用了几千张图像——信息量不足以直接微调强大的视觉模型，这些模型会立即在这一小规模图像集上过拟合，并遗忘许多已有技能。

为了解决这一问题，我们提出了一种三步方法：

我们从一个强大的预训练视觉模型（SigLIP-SO400M）开始，并在其上方使用 THINGS 数据集谨慎训练一个小型适配器。通过冻结主模型并仔细正则化适配器训练，我们创建了一个不会遗忘其先前训练内容的教师模型。
随后，这个教师模型充当类人判断的替代物，我们用它生成了一个名为 AligNet 的大规模新数据集，包含基于一百万张不同图像的数百万个类人“找不同”决策——远多于我们能够从真实人类那里收集到的数量。
最后，我们使用这个新数据集来微调其他 AI 模型（“学生”）。由于数据集具有多样性，过拟合不再是问题，学生模型可以被充分训练，并能更深入地重构其内部地图。

如下图所示，学生模型的表征从杂乱无章的混合状态，转变为结构清晰的组织方式，其中动物（蓝色）和食物（绿色）等高层概念与其他类型的物体分离开来。

人类知识是按照不同层次的相似性组织的。当我们使模型与人类知识对齐时，模型的表征会根据这些相似性层次发生变化。这种重组遵循认知科学所揭示的人类知识层级结构。

在对齐过程中，我们看到表征会按照其在人类类别层级中的“概念距离”成比例地彼此远离或靠近。例如，两只狗（同一下位类别）会更靠近（距离减小），而一只猫头鹰和一辆卡车（不同上位类别）会相距更远（距离增大）。

一张折线图显示了人类与 AI 表征之间相对距离的变化。非常相似类别的表征往往会更靠近，而相似度较低的物体配对表征往往会更远离。

我们可以得出结论：我们的方法在没有明确监督的情况下，按照人类概念层级组织了 AI 学生模型的表征地图。

测试我们的对齐模型

我们在许多认知科学任务上测试了对齐后的模型——包括多重排列等任务，即按相似性排列多张图像——以及我们收集的一个名为 Levels 的新“找不同”数据集。在所有情况下，我们的对齐模型都表现出显著提升的人类对齐度，在一系列视觉任务中与人类判断的一致性大幅提高。

我们的模型甚至学会了一种“类人”的不确定性。在测试中，模型决策不确定性与人类作出选择所需的时间高度相关，而后者是不确定性的常见代理测量指标。

我们还发现，使模型更符合人类判断，也会让它们整体上成为更好的视觉模型。我们的对齐模型在多种具有挑战性的任务中表现好得多，例如从单张图像学习一个新类别（“少样本学习”），或是在被测试图像类型发生变化时（“分布偏移”）仍作出可靠决策。

两张柱状图显示，我们的对齐模型（深蓝色）在涉及“找不同”和多重排列的认知科学任务（上）以及涉及少样本学习和分布偏移的 AI 任务（下）中，优于原始模型（浅灰色）。

迈向更符合人类、更可靠的模型

许多现有视觉模型未能捕捉人类知识的高层结构。这项研究提出了一种可能解决该问题的方法，并表明模型可以更好地与人类判断对齐，并在各种标准 AI 任务中表现得更可靠。

尽管仍需开展更多对齐工作，但我们的研究展示了迈向更稳健、更可靠 AI 系统的一步。

进一步了解我们的工作

阅读我们的论文

基于开源实现继续构建

在 Levels 数据集上评估模型

致谢

我们感谢论文第一作者 Lukas Muttenthaler，以及我们的合作者 Frieda Born、Bernhard Spitzer、Simon Kornblith、Michael C. Mozer、Klaus-Robert Müller 和 Thomas Unterthiner。

Gemini Robotics：1.5 将 AI 智能体带入物理世界

2025年9月

正文：Google DeepMind

了解更多

Gemini 中的图像编辑迎来重大升级

2025年8月模型

了解更多

教会 AI 更像我们一样看世界

中文内容

教会 AI 更像我们一样看世界

为什么 AI 难以应对“找不同”

一种多步骤对齐方法

测试我们的对齐模型

迈向更符合人类、更可靠的模型

致谢

相关文章

Gemini Robotics：1.5 将 AI 智能体带入物理世界

Gemini 中的图像编辑迎来重大升级

原文标题