摘要
提出注意力特征学习的贝叶斯理论,分析复制头子电路学习,并揭示训练数据量中的相变。
统计学 > 机器学习
[提交于 2026年6月10日]
标题:注意力中的相变:复制头涌现的贝叶斯理论
View PDF HTML (experimental)摘要:注意力是 transformer 中上下文学习的关键机制,经验观察表明,注意力模式会在训练过程中突然涌现。我们提出一种注意力中特征学习的贝叶斯理论;随后通过分析一个在复制任务上训练的单层 softmax 注意力网络,重点研究 induction head 第一层中的复制子电路是如何学习的。我们推导出注意力矩阵的闭式后验分布,并将其降维到低维序参量空间。这一降维揭示了训练数据量中的相变,我们使用贝叶斯采样和 Adam 标准训练均进行了验证。我们将结果与线性注意力进行对比,发现 softmax 注意力表现出\emph{一阶相变},而在线性注意力中,初始的\emph{二阶相变}之后会出现一个较小的
Subjects:
机器学习(stat.ML); Disordered Systems and Neural Networks (cond-mat.dis-nn); Machine Learning (cs.LG)
Cite as:
arXiv:2606.12058 [stat.ML]
(or
arXiv:2606.12058v1 [stat.ML] for this version)
https://doi.org/10.48550/arXiv.2606.12058
聚焦以了解更多
arXiv-issued DOI via DataCite (pending registration)
当前浏览上下文:
正文:stat.ML
Change to browse by:
参考文献与引用
- 正文:NASA ADS
- 正文:Google Scholar
- 正文:Semantic Scholar
export BibTeX citation
加载中...
Bibliographic Tools
Code, Data, Media
Demos
Related Papers
About arXivLabs





书目与引用工具
书目浏览器切换
书目浏览器 (What is the Explorer?)
Connected Papers 切换
正文:Connected Papers (What is Connected Papers?)
Litmaps 切换
正文:Litmaps (What is Litmaps?)
scite.ai 切换
正文:scite Smart Citations (What are Smart Citations?)
与本文相关的代码、数据和媒体
alphaXiv 切换
正文:alphaXiv (What is alphaXiv?)
代码链接切换
CatalyzeX 论文代码查找器 (What is CatalyzeX?)
DagsHub 切换
正文:DagsHub (What is DagsHub?)
GotitPub 切换
正文:Gotit.pub (What is GotitPub?)
Huggingface 切换
正文:Hugging Face (What is Huggingface?)
ScienceCast 切换
正文:ScienceCast (What is ScienceCast?)
演示
Replicate 切换
正文:Replicate (What is Replicate?)
Spaces 切换
正文:Hugging Face Spaces (What is Spaces?)
Spaces 切换
正文:TXYZ.AI (What is TXYZ.AI?)
推荐与搜索工具
链接到 Influence Flower
正文:Influence Flower (What are Influence Flowers?)
CORE 推荐器 (What is CORE?)
- 作者
- 发表场所
- 机构
- 主题
arXivLabs:与社区合作者开展的实验性项目
arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和分享新的 arXiv 功能。
与 arXivLabs 合作的个人和组织均已认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵循这些价值观的合作伙伴合作。
有一个能为 arXiv 社区增加价值的项目想法吗?了解更多关于 arXivLabs 的信息。

