元鉴
返回中文阅读流
arXiv2026-06-11

突破熵界限:通过带拒绝采样的 MTP 加速 RL 训练

RL 已成现代大语言模型关键组成,但 rollout 阶段仍是训练瓶颈。Bebop 系统研究用 MTP 与拒绝采样加速 RL。

摘要已翻译professional source英文原文正文翻译排队
正文翻译排队

该来源正文已进入翻译队列,中文正文生成前先展示摘要和原始出处入口。

摘要

RL 已成现代大语言模型关键组成,但 rollout 阶段仍是训练瓶颈。Bebop 系统研究用 MTP 与拒绝采样加速 RL。

计算机科学 > 机器学习

[提交于 2026 年 6 月 10 日]

标题:突破熵界限:通过带拒绝采样的 MTP 加速 RL 训练

View PDF HTML (experimental)
摘要:强化学习(RL)已成为现代大语言模型中的关键组成部分,但 rollout 阶段仍是 RL 训练流水线中的主要瓶颈。尽管多 Token 预测(MTP)通过 speculative decoding 为加速 rollout 提供了一种自然方案,许多研究观察到,在 RL 训练期间 MTP 接受率会显著下降,导致加速效果有限。为解决这一瓶颈,我们提出 Bebop,对 LLM 后训练中的 MTP 进行系统研究,并提供将 MTP 集成到大规模 RL 流水线中的实用方案。首先,我们揭示 MTP 接受率从根本上受模型熵波动的约束,并且与 RL 阶段熵的上升呈现明确的负线性关系。其次,我们表明,概率式拒绝采样在很大程度上缓解了所引入的扰动
Subjects: 机器学习(cs.LG); Computation and Language (cs.CL) Cite as: arXiv:2606.12370 [cs.LG]   (or arXiv:2606.12370v1 [cs.LG] for this version)   https://doi.org/10.48550/arXiv.2606.12370
点击了解更多
arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Huiqiang Jiang [view email]
[v1] Wed, 10 Jun 2026 17:36:45 UTC (1,136 KB)
全文链接:

访问论文:

当前浏览上下文:

正文:cs.LG
< prev   |   next >
Change to browse by:

参考文献与引用

  • 正文:NASA ADS
  • 正文:Google Scholar
  • 正文:Semantic Scholar
export BibTeX citation 加载中...

BibTeX 格式引用

×
加载中...
数据提供方:

收藏

BibSonomy Reddit
Bibliographic Tools

书目与引用工具

书目浏览器开关
书目浏览器 (What is the Explorer?)
Connected Papers 开关
正文:Connected Papers (What is Connected Papers?)
Litmaps 开关
正文:Litmaps (What is Litmaps?)
scite.ai 开关
正文:scite Smart Citations (What are Smart Citations?)
Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 开关
正文:alphaXiv (What is alphaXiv?)
代码链接开关
CatalyzeX 论文代码查找器 (What is CatalyzeX?)
DagsHub 开关
正文:DagsHub (What is DagsHub?)
GotitPub 开关
正文:Gotit.pub (What is GotitPub?)
Huggingface 开关
正文:Hugging Face (What is Huggingface?)
ScienceCast 开关
正文:ScienceCast (What is ScienceCast?)
Demos

演示

Replicate 开关
正文:Replicate (What is Replicate?)
Spaces 开关
正文:Hugging Face Spaces (What is Spaces?)
Spaces 开关
正文:TXYZ.AI (What is TXYZ.AI?)
Related Papers

推荐与搜索工具

链接到 Influence Flower
正文:Influence Flower (What are Influence Flowers?)
CORE 推荐器 (What is CORE?)
IArxiv 推荐器开关
IArxiv 推荐器 (What is IArxiv?)
  • 作者
  • 发表场所
  • 机构
  • 主题
About arXivLabs

arXivLabs:与社区合作者开展的实验性项目

arXivLabs 是一个框架,允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织均已认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个能为 arXiv 社区增加价值的项目想法?了解更多关于 arXivLabs 的信息。