摘要
研究SAE特征稳定性,发现稳定特征承载主要重构与预测信号,不稳定特征影响较弱且多由低频表面形式触发。
计算机科学 > 机器学习
[提交于 2026年6月10日]
标题:不稳定特征、可复现子空间:理解稀疏自编码器中的种子依赖性
作者:Gleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov
View PDF
HTML (experimental)
摘要:稀疏自编码器(SAEs)被广泛用于解释神经网络表征,但其效用取决于所学习特征在不同训练运行之间是否可复现。我们通过\emph{特征稳定性}来研究这一问题:对于每个SAE特征,我们估计相似特征在一个独立训练的SAE中再次出现的概率。这产生了一种可扩展的逐特征信号,可区分稳定特征与不稳定特征。在一项跨随机种子、模型、层、字典大小和SAE变体的大规模研究中,我们发现了显著的功能不对称性:稳定特征承载了大部分与重构和预测相关的信号,而不稳定特征的边际影响较弱,并且在激活统计和自动解释中都受低频表面形式触发因素主导。从几何角度看,不稳定特征单独而言不可复现
Subjects:
机器学习(cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)
Cite as:
arXiv:2606.12138 [cs.LG]
(or
arXiv:2606.12138v1 [cs.LG] for this version)
https://doi.org/10.48550/arXiv.2606.12138
聚焦以了解更多
arXiv-issued DOI via DataCite (pending registration)
参考文献与引用
- 正文:NASA ADS
- 正文:Google Scholar
- 正文:Semantic Scholar
export BibTeX citation
正在加载...
Bibliographic Tools
Code, Data, Media
Demos
Related Papers
About arXivLabs





书目与引用工具
书目浏览器切换
书目浏览器 (What is the Explorer?)
Connected Papers 切换
正文:Connected Papers (What is Connected Papers?)
Litmaps 切换
正文:Litmaps (What is Litmaps?)
scite.ai 切换
正文:scite Smart Citations (What are Smart Citations?)
与本文相关的代码、数据和媒体
alphaXiv 切换
正文:alphaXiv (What is alphaXiv?)
代码链接切换
CatalyzeX 论文代码查找器 (What is CatalyzeX?)
DagsHub 切换
正文:DagsHub (What is DagsHub?)
GotitPub 切换
正文:Gotit.pub (What is GotitPub?)
Huggingface 切换
正文:Hugging Face (What is Huggingface?)
ScienceCast 切换
正文:ScienceCast (What is ScienceCast?)
演示
Replicate 切换
正文:Replicate (What is Replicate?)
Spaces 切换
正文:Hugging Face Spaces (What is Spaces?)
Spaces 切换
正文:TXYZ.AI (What is TXYZ.AI?)
推荐与搜索工具
链接到 Influence Flower
正文:Influence Flower (What are Influence Flowers?)
CORE 推荐器 (What is CORE?)
IArxiv 推荐器切换
IArxiv 推荐器
(What is IArxiv?)
- 作者
- 发表场所
- 机构
- 主题
arXivLabs:与社区合作者开展的实验性项目
arXivLabs 是一个框架,允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。
与 arXivLabs 合作的个人和组织均已认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵循这些价值观的合作伙伴合作。
有一个能为 arXiv 社区增加价值的项目想法?了解更多关于 arXivLabs 的信息。

