正文翻译排队

该来源正文已进入翻译队列，中文正文生成前先展示摘要和原始出处入口。

摘要

VLM 将图像投射为大量视觉 token，推理成本高。Reroute 以可恢复路由替代永久移除，适应重要性随层变化。

计算机科学 > 计算机视觉与模式识别

[提交于 2026 年 6 月 10 日]

标题：Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models

作者：Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu

摘要：视觉语言模型（VLMs）将图像投射为数百到数千个视觉 token，使解码器推理在注意力计算和 KV-cache 内存方面都代价高昂。现有视觉 token 减少方法大多遵循“排序并移除”的范式：它们为视觉 token 打分，保留一个紧凑子集，并永久丢弃其余部分。我们表明，这种不可逆操作较为脆弱，因为视觉 token 的重要性会随解码器深度而变化；在某一阶段排名较低的 token 可能在后续层中变得相关，尤其是在对定位敏感的查询中。我们提出 Reroute，这是一种无需训练的插件，用可恢复路由替代移除。在每个路由阶段，被选中的视觉 token 通过解码器块，而被延后的 token 则绕过该阶段，并在下一次路由决策时重新进入候选池。Reroute 复用现有的注意力分数排序规则，并

Comments: Subjects: 计算机视觉与模式识别（cs.CV）; Artificial Intelligence (cs.AI) Cite as: arXiv:2606.12412 [cs.CV] (or arXiv:2606.12412v1 [cs.CV] for this version) https://doi.org/10.48550/arXiv.2606.12412

聚焦以了解更多

arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Yu-Lun Liu [view email]
[v1] Wed, 10 Jun 2026 17:59:57 UTC (7,112 KB)

全文链接：

访问论文：

查看许可证

当前浏览上下文：

正文：cs.CV

< prev | next >

new | recent | 2026-06

Change to browse by:

cs
cs.AI

参考文献与引用

正文：NASA ADS
正文：Google Scholar
正文：Semantic Scholar

export BibTeX citation 加载中...

BibTeX 格式引用

加载中...

数据提供方：

Bibliographic Tools

书目与引用工具

书目浏览器切换

书目浏览器 (What is the Explorer?)

Connected Papers 切换

正文：Connected Papers (What is Connected Papers?)

Litmaps 切换

正文：Litmaps (What is Litmaps?)

scite.ai 切换

正文：scite Smart Citations (What are Smart Citations?)

Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 切换

正文：alphaXiv (What is alphaXiv?)

代码链接切换

CatalyzeX 论文代码查找器 (What is CatalyzeX?)

DagsHub 切换

正文：DagsHub (What is DagsHub?)

GotitPub 切换

正文：Gotit.pub (What is GotitPub?)

Huggingface 切换

正文：Hugging Face (What is Huggingface?)

ScienceCast 切换

正文：ScienceCast (What is ScienceCast?)

Demos

演示

Replicate 切换

正文：Replicate (What is Replicate?)

Spaces 切换

正文：Hugging Face Spaces (What is Spaces?)

Spaces 切换

正文：TXYZ.AI (What is TXYZ.AI?)

arXivLabs：与社区协作者合作的实验性项目

arXivLabs 是一个框架，允许协作者直接在我们的网站上开发和分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织都已认同并接受我们关于开放性、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观，并且只与遵守这些价值观的合作伙伴合作。

有想法能为 arXiv 社区增加价值吗？了解更多关于 arXivLabs 的信息。

改路由，而非移除：面向视觉语言模型的可恢复视觉 Token 路由