摘要

提出注意力特征学习的贝叶斯理论，分析复制头子电路学习，并揭示训练数据量中的相变。

统计学 > 机器学习

[提交于 2026年6月10日]

标题：注意力中的相变：复制头涌现的贝叶斯理论

作者：Itay Lavie, Kirsten Fischer, Andrey Lekov, Frederic Van Maele, Zohar Ringel, Moritz Helias

摘要：注意力是 transformer 中上下文学习的关键机制，经验观察表明，注意力模式会在训练过程中突然涌现。我们提出一种注意力中特征学习的贝叶斯理论；随后通过分析一个在复制任务上训练的单层 softmax 注意力网络，重点研究 induction head 第一层中的复制子电路是如何学习的。我们推导出注意力矩阵的闭式后验分布，并将其降维到低维序参量空间。这一降维揭示了训练数据量中的相变，我们使用贝叶斯采样和 Adam 标准训练均进行了验证。我们将结果与线性注意力进行对比，发现 softmax 注意力表现出\emph{一阶相变}，而在线性注意力中，初始的\emph{二阶相变}之后会出现一个较小的

Subjects: 机器学习（stat.ML）; Disordered Systems and Neural Networks (cond-mat.dis-nn); Machine Learning (cs.LG) Cite as: arXiv:2606.12058 [stat.ML] (or arXiv:2606.12058v1 [stat.ML] for this version) https://doi.org/10.48550/arXiv.2606.12058

聚焦以了解更多

arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Itay Lavie [view email]
[v1] Wed, 10 Jun 2026 13:26:56 UTC (2,656 KB)

全文链接：

访问论文：

查看许可证

当前浏览上下文：

正文：stat.ML

< prev | next >

new | recent | 2026-06

Change to browse by:

cond-mat
cond-mat.dis-nn
cs
cs.LG
stat

参考文献与引用

正文：NASA ADS
正文：Google Scholar
正文：Semantic Scholar

export BibTeX citation 加载中...

BibTeX 格式引用

加载中...

数据提供方：

书签

Bibliographic Tools

书目与引用工具

书目浏览器切换

书目浏览器 (What is the Explorer?)

Connected Papers 切换

正文：Connected Papers (What is Connected Papers?)

Litmaps 切换

正文：Litmaps (What is Litmaps?)

scite.ai 切换

正文：scite Smart Citations (What are Smart Citations?)

Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 切换

正文：alphaXiv (What is alphaXiv?)

代码链接切换

CatalyzeX 论文代码查找器 (What is CatalyzeX?)

DagsHub 切换

正文：DagsHub (What is DagsHub?)

GotitPub 切换

正文：Gotit.pub (What is GotitPub?)

Huggingface 切换

正文：Hugging Face (What is Huggingface?)

ScienceCast 切换

正文：ScienceCast (What is ScienceCast?)

Demos

演示

Replicate 切换

正文：Replicate (What is Replicate?)

Spaces 切换

正文：Hugging Face Spaces (What is Spaces?)

Spaces 切换

正文：TXYZ.AI (What is TXYZ.AI?)

arXivLabs：与社区合作者开展的实验性项目

arXivLabs 是一个框架，允许合作者直接在我们的网站上开发和分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织均已认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观，并且只与遵循这些价值观的合作伙伴合作。

有一个能为 arXiv 社区增加价值的项目想法吗？了解更多关于 arXivLabs 的信息。