摘要

研究SAE特征稳定性，发现稳定特征承载主要重构与预测信号，不稳定特征影响较弱且多由低频表面形式触发。

计算机科学 > 机器学习

[提交于 2026年6月10日]

标题：不稳定特征、可复现子空间：理解稀疏自编码器中的种子依赖性

作者：Gleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov

摘要：稀疏自编码器（SAEs）被广泛用于解释神经网络表征，但其效用取决于所学习特征在不同训练运行之间是否可复现。我们通过\emph{特征稳定性}来研究这一问题：对于每个SAE特征，我们估计相似特征在一个独立训练的SAE中再次出现的概率。这产生了一种可扩展的逐特征信号，可区分稳定特征与不稳定特征。在一项跨随机种子、模型、层、字典大小和SAE变体的大规模研究中，我们发现了显著的功能不对称性：稳定特征承载了大部分与重构和预测相关的信号，而不稳定特征的边际影响较弱，并且在激活统计和自动解释中都受低频表面形式触发因素主导。从几何角度看，不稳定特征单独而言不可复现

Subjects: 机器学习（cs.LG）; Artificial Intelligence (cs.AI); Computation and Language (cs.CL) Cite as: arXiv:2606.12138 [cs.LG] (or arXiv:2606.12138v1 [cs.LG] for this version) https://doi.org/10.48550/arXiv.2606.12138

聚焦以了解更多

arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Nikita Balagansky [view email]
[v1] Wed, 10 Jun 2026 14:32:57 UTC (333 KB)

全文链接：

访问论文：

查看许可

当前浏览上下文：

正文：cs.LG

< prev | next >

new | recent | 2026-06

Change to browse by:

cs
cs.AI
cs.CL

参考文献与引用

正文：NASA ADS
正文：Google Scholar
正文：Semantic Scholar

export BibTeX citation 正在加载...

BibTeX 格式引用

正在加载...

数据提供方：

书签

Bibliographic Tools

书目与引用工具

书目浏览器切换

书目浏览器 (What is the Explorer?)

Connected Papers 切换

正文：Connected Papers (What is Connected Papers?)

Litmaps 切换

正文：Litmaps (What is Litmaps?)

scite.ai 切换

正文：scite Smart Citations (What are Smart Citations?)

Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 切换

正文：alphaXiv (What is alphaXiv?)

代码链接切换

CatalyzeX 论文代码查找器 (What is CatalyzeX?)

DagsHub 切换

正文：DagsHub (What is DagsHub?)

GotitPub 切换

正文：Gotit.pub (What is GotitPub?)

Huggingface 切换

正文：Hugging Face (What is Huggingface?)

ScienceCast 切换

正文：ScienceCast (What is ScienceCast?)

Demos

演示

Replicate 切换

正文：Replicate (What is Replicate?)

Spaces 切换

正文：Hugging Face Spaces (What is Spaces?)

Spaces 切换

正文：TXYZ.AI (What is TXYZ.AI?)

arXivLabs：与社区合作者开展的实验性项目

arXivLabs 是一个框架，允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织均已认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观，并且只与遵循这些价值观的合作伙伴合作。

有一个能为 arXiv 社区增加价值的项目想法？了解更多关于 arXivLabs 的信息。