正文翻译排队

该来源正文已进入翻译队列，中文正文生成前先展示摘要和原始出处入口。

摘要

RL 已成现代大语言模型关键组成，但 rollout 阶段仍是训练瓶颈。Bebop 系统研究用 MTP 与拒绝采样加速 RL。

计算机科学 > 机器学习

[提交于 2026 年 6 月 10 日]

标题：突破熵界限：通过带拒绝采样的 MTP 加速 RL 训练

作者：Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou

View PDF HTML (experimental)

摘要：强化学习（RL）已成为现代大语言模型中的关键组成部分，但 rollout 阶段仍是 RL 训练流水线中的主要瓶颈。尽管多 Token 预测（MTP）通过 speculative decoding 为加速 rollout 提供了一种自然方案，许多研究观察到，在 RL 训练期间 MTP 接受率会显著下降，导致加速效果有限。为解决这一瓶颈，我们提出 Bebop，对 LLM 后训练中的 MTP 进行系统研究，并提供将 MTP 集成到大规模 RL 流水线中的实用方案。首先，我们揭示 MTP 接受率从根本上受模型熵波动的约束，并且与 RL 阶段熵的上升呈现明确的负线性关系。其次，我们表明，概率式拒绝采样在很大程度上缓解了所引入的扰动

Subjects: 机器学习（cs.LG）; Computation and Language (cs.CL) Cite as: arXiv:2606.12370 [cs.LG] (or arXiv:2606.12370v1 [cs.LG] for this version) https://doi.org/10.48550/arXiv.2606.12370

点击了解更多

arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Huiqiang Jiang [view email]
[v1] Wed, 10 Jun 2026 17:36:45 UTC (1,136 KB)

全文链接：

访问论文：

view license

当前浏览上下文：

正文：cs.LG

< prev | next >

new | recent | 2026-06

Change to browse by:

cs
cs.CL

参考文献与引用

正文：NASA ADS
正文：Google Scholar
正文：Semantic Scholar

export BibTeX citation 加载中...

BibTeX 格式引用

加载中...

数据提供方：

Bibliographic Tools

书目与引用工具

书目浏览器开关

书目浏览器 (What is the Explorer?)

Connected Papers 开关

正文：Connected Papers (What is Connected Papers?)

Litmaps 开关

正文：Litmaps (What is Litmaps?)

scite.ai 开关

正文：scite Smart Citations (What are Smart Citations?)

Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 开关

正文：alphaXiv (What is alphaXiv?)

代码链接开关

CatalyzeX 论文代码查找器 (What is CatalyzeX?)

DagsHub 开关

正文：DagsHub (What is DagsHub?)

GotitPub 开关

正文：Gotit.pub (What is GotitPub?)

Huggingface 开关

正文：Hugging Face (What is Huggingface?)

ScienceCast 开关

正文：ScienceCast (What is ScienceCast?)

Demos

演示

Replicate 开关

正文：Replicate (What is Replicate?)

Spaces 开关

正文：Hugging Face Spaces (What is Spaces?)

Spaces 开关

正文：TXYZ.AI (What is TXYZ.AI?)

arXivLabs：与社区合作者开展的实验性项目

arXivLabs 是一个框架，允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织均已认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观，并且只与遵守这些价值观的合作伙伴合作。

有一个能为 arXiv 社区增加价值的项目想法？了解更多关于 arXivLabs 的信息。

突破熵界限：通过带拒绝采样的 MTP 加速 RL 训练