正文翻译排队
该来源正文已进入翻译队列,中文正文生成前先展示摘要和原始出处入口。
摘要
语言模型后训练主要塑造模型行为,但多依赖标量奖励。本文探讨优化前检查偏好数据,以概念层面决定模型可学习行为。
计算机科学 > 机器学习
[提交于 2026年6月10日]
标题:后训练剖析:利用可解释性刻画数据并塑造学习信号
作者:Leon Bergen, Usha Bhalla, Sidharth Baskaran, Max Loeffler, Raphael Sarfati, Dhruvil Gala, Ryan Panwar, Santiago Aranguri, Thomas Fel, Atticus Geiger, Matthew Kowal, Siddharth Boppana, Daniel Balsam, Owen Lewis, Jack Merullo, Thomas McGrath, Ekdeep Singh Lubana
View PDF
HTML (experimental)
摘要:语言模型后训练是塑造模型行为的主要阶段,但它在很大程度上仍涉及对标量奖励的优化,这些奖励概括了多样化的期望目标。这种抽象使实践者难以看清其数据实际教给模型什么,可能让模型学习到虚假相关性,并诱发过度风格化和迎合等不良行为。为解决这一问题,我们提出疑问:能否在优化之前检查偏好数据,并在概念层面决定模型应被允许学习哪些行为?受此启发,我们提出一种以数据为中心的后训练流程,使用可解释性协议为区分偏好生成与非偏好生成的潜在概念提出统计假设,并将其显式化以支持细粒度用户反馈。在这一视角基础上,我们统一
Subjects:
机器学习(cs.LG)
Cite as:
arXiv:2606.12360 [cs.LG]
(or
arXiv:2606.12360v1 [cs.LG] for this version)
https://doi.org/10.48550/arXiv.2606.12360
聚焦以了解更多
arXiv-issued DOI via DataCite (pending registration)
参考文献与引用
- 正文:NASA ADS
- 正文:Google Scholar
- 正文:Semantic Scholar
export BibTeX citation
加载中...
Bibliographic Tools
Code, Data, Media
Demos
Related Papers
About arXivLabs





书目与引用工具
书目浏览器开关
书目浏览器 (What is the Explorer?)
Connected Papers 开关
正文:Connected Papers (What is Connected Papers?)
Litmaps 开关
正文:Litmaps (What is Litmaps?)
scite.ai 开关
scite 智能引用 (What are Smart Citations?)
与本文相关的代码、数据和媒体
alphaXiv 开关
正文:alphaXiv (What is alphaXiv?)
代码链接开关
CatalyzeX 论文代码查找器 (What is CatalyzeX?)
DagsHub 开关
正文:DagsHub (What is DagsHub?)
GotitPub 开关
正文:Gotit.pub (What is GotitPub?)
Huggingface 开关
正文:Hugging Face (What is Huggingface?)
ScienceCast 开关
正文:ScienceCast (What is ScienceCast?)
演示
Replicate 开关
正文:Replicate (What is Replicate?)
Spaces 开关
正文:Hugging Face Spaces (What is Spaces?)
Spaces 开关
正文:TXYZ.AI (What is TXYZ.AI?)
推荐与搜索工具
Influence Flower 链接
正文:Influence Flower (What are Influence Flowers?)
CORE 推荐器 (What is CORE?)
IArxiv 推荐器开关
IArxiv 推荐器
(What is IArxiv?)
- 作者
- 发表场所
- 机构
- 主题
arXivLabs:与社区合作者开展的实验性项目
arXivLabs 是一个框架,允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。
与 arXivLabs 合作的个人和组织均已认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵循这些价值观的伙伴合作。
有一个能为 arXiv 社区增加价值的项目想法?了解更多关于 arXivLabs 的信息。

