正文翻译排队
该来源正文已进入翻译队列,中文正文生成前先展示摘要和原始出处入口。
摘要
RL 已成现代大语言模型关键组成,但 rollout 阶段仍是训练瓶颈。Bebop 系统研究用 MTP 与拒绝采样加速 RL。
计算机科学 > 机器学习
[提交于 2026 年 6 月 10 日]
标题:突破熵界限:通过带拒绝采样的 MTP 加速 RL 训练
作者:Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou
View PDF
HTML (experimental)
摘要:强化学习(RL)已成为现代大语言模型中的关键组成部分,但 rollout 阶段仍是 RL 训练流水线中的主要瓶颈。尽管多 Token 预测(MTP)通过 speculative decoding 为加速 rollout 提供了一种自然方案,许多研究观察到,在 RL 训练期间 MTP 接受率会显著下降,导致加速效果有限。为解决这一瓶颈,我们提出 Bebop,对 LLM 后训练中的 MTP 进行系统研究,并提供将 MTP 集成到大规模 RL 流水线中的实用方案。首先,我们揭示 MTP 接受率从根本上受模型熵波动的约束,并且与 RL 阶段熵的上升呈现明确的负线性关系。其次,我们表明,概率式拒绝采样在很大程度上缓解了所引入的扰动
Subjects:
机器学习(cs.LG); Computation and Language (cs.CL)
Cite as:
arXiv:2606.12370 [cs.LG]
(or
arXiv:2606.12370v1 [cs.LG] for this version)
https://doi.org/10.48550/arXiv.2606.12370
点击了解更多
arXiv-issued DOI via DataCite (pending registration)
参考文献与引用
- 正文:NASA ADS
- 正文:Google Scholar
- 正文:Semantic Scholar
export BibTeX citation
加载中...
Bibliographic Tools
Code, Data, Media
Demos
Related Papers
About arXivLabs





书目与引用工具
书目浏览器开关
书目浏览器 (What is the Explorer?)
Connected Papers 开关
正文:Connected Papers (What is Connected Papers?)
Litmaps 开关
正文:Litmaps (What is Litmaps?)
scite.ai 开关
正文:scite Smart Citations (What are Smart Citations?)
与本文相关的代码、数据和媒体
alphaXiv 开关
正文:alphaXiv (What is alphaXiv?)
代码链接开关
CatalyzeX 论文代码查找器 (What is CatalyzeX?)
DagsHub 开关
正文:DagsHub (What is DagsHub?)
GotitPub 开关
正文:Gotit.pub (What is GotitPub?)
Huggingface 开关
正文:Hugging Face (What is Huggingface?)
ScienceCast 开关
正文:ScienceCast (What is ScienceCast?)
演示
Replicate 开关
正文:Replicate (What is Replicate?)
Spaces 开关
正文:Hugging Face Spaces (What is Spaces?)
Spaces 开关
正文:TXYZ.AI (What is TXYZ.AI?)
推荐与搜索工具
链接到 Influence Flower
正文:Influence Flower (What are Influence Flowers?)
CORE 推荐器 (What is CORE?)
IArxiv 推荐器开关
IArxiv 推荐器
(What is IArxiv?)
- 作者
- 发表场所
- 机构
- 主题
arXivLabs:与社区合作者开展的实验性项目
arXivLabs 是一个框架,允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。
与 arXivLabs 合作的个人和组织均已认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个能为 arXiv 社区增加价值的项目想法?了解更多关于 arXivLabs 的信息。

