中文内容
已翻译professional source英文原文2026-06-06
计算机科学 > 机器人学
[提交于 2026 年 6 月 4 日]
标题:TempoVLA:学习速度可控的视觉-语言-动作策略
View PDF HTML (experimental)摘要:机器人操作会在需要快速执行的低风险移动阶段与要求缓慢、精确运动的高风险接触阶段之间交替。然而,现有的视觉-语言-动作模型(VLAs)只能从训练演示中继承单一固定速度。此前通过模型压缩、KV-cache 复用或强化学习来加速 VLA 的工作,只是将策略从一种固定速度转移到另一种固定速度,而对减速几乎没有探索。我们观察到,每个预测动作的幅度本身已经决定了机器人移动的快慢,这为可控执行速度提供了一条直接路径。我们将这一观察转化为 TempoVLA,这是一个由显式条件控制执行速度的单一 VLA。TempoVLA 结合了两个相互耦合的组件。(1)数据侧的可变速度轨迹增强(Variable-Speed Trajectory Augmentation,VSTA),通过以下方式将演示重新定时到任意目标速度:
Subjects:
机器人学(cs.RO); Artificial Intelligence (cs.AI)
Cite as:
arXiv:2606.06491 [cs.RO]
(or
arXiv:2606.06491v1 [cs.RO] for this version)
https://doi.org/10.48550/arXiv.2606.06491
聚焦以了解更多
arXiv-issued DOI via DataCite (pending registration)
参考文献与引用
- 正文:NASA ADS
- 正文:Google Scholar
- 正文:Semantic Scholar
export BibTeX citation
加载中...
Bibliographic Tools
Code, Data, Media
Demos
Related Papers
About arXivLabs





书目与引用工具
书目浏览器开关
书目浏览器 (What is the Explorer?)
Connected Papers 开关
正文:Connected Papers (What is Connected Papers?)
Litmaps 开关
正文:Litmaps (What is Litmaps?)
scite.ai 开关
scite 智能引用 (What are Smart Citations?)
与本文相关的代码、数据和媒体
alphaXiv 开关
正文:alphaXiv (What is alphaXiv?)
代码链接开关
CatalyzeX 论文代码查找器 (What is CatalyzeX?)
DagsHub 开关
正文:DagsHub (What is DagsHub?)
GotitPub 开关
正文:Gotit.pub (What is GotitPub?)
Huggingface 开关
正文:Hugging Face (What is Huggingface?)
ScienceCast 开关
正文:ScienceCast (What is ScienceCast?)
演示
Replicate 开关
正文:Replicate (What is Replicate?)
Spaces 开关
正文:Hugging Face Spaces (What is Spaces?)
Spaces 开关
正文:TXYZ.AI (What is TXYZ.AI?)
推荐与搜索工具
链接到 Influence Flower
正文:Influence Flower (What are Influence Flowers?)
CORE 推荐器 (What is CORE?)
- 作者
- 发表场所
- 机构
- 主题
arXivLabs:与社区合作者开展的实验性项目
arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和分享新的 arXiv 功能。
与 arXivLabs 合作的个人和组织均已认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有能为 arXiv 社区增加价值的项目想法吗?了解更多关于 arXivLabs 的信息。

