中文内容

已翻译professional source英文原文2026-06-06

计算机科学 > 机器人学

[提交于 2026 年 6 月 4 日]

标题：TempoVLA：学习速度可控的视觉-语言-动作策略

作者：Dong Jing, Jingchen Nie, Tianqi Zhang, Jiaqi Liu, Huaxiu Yao, Zhiwu Lu, Mingyu Ding

摘要：机器人操作会在需要快速执行的低风险移动阶段与要求缓慢、精确运动的高风险接触阶段之间交替。然而，现有的视觉-语言-动作模型（VLAs）只能从训练演示中继承单一固定速度。此前通过模型压缩、KV-cache 复用或强化学习来加速 VLA 的工作，只是将策略从一种固定速度转移到另一种固定速度，而对减速几乎没有探索。我们观察到，每个预测动作的幅度本身已经决定了机器人移动的快慢，这为可控执行速度提供了一条直接路径。我们将这一观察转化为 TempoVLA，这是一个由显式条件控制执行速度的单一 VLA。TempoVLA 结合了两个相互耦合的组件。（1）数据侧的可变速度轨迹增强（Variable-Speed Trajectory Augmentation，VSTA），通过以下方式将演示重新定时到任意目标速度：

Subjects: 机器人学（cs.RO）; Artificial Intelligence (cs.AI) Cite as: arXiv:2606.06491 [cs.RO] (or arXiv:2606.06491v1 [cs.RO] for this version) https://doi.org/10.48550/arXiv.2606.06491

聚焦以了解更多

arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Dong Jing [view email]
[v1] Thu, 4 Jun 2026 17:59:40 UTC (5,027 KB)

全文链接：

访问论文：

查看许可

当前浏览上下文：

正文：cs.RO

< prev | next >

new | recent | 2026-06

Change to browse by:

cs
cs.AI

参考文献与引用

正文：NASA ADS
正文：Google Scholar
正文：Semantic Scholar

export BibTeX citation 加载中...

BibTeX 格式引用

加载中...

数据提供方：

书签

Bibliographic Tools

书目与引用工具

书目浏览器开关

书目浏览器 (What is the Explorer?)

Connected Papers 开关

正文：Connected Papers (What is Connected Papers?)

Litmaps 开关

正文：Litmaps (What is Litmaps?)

scite.ai 开关

scite 智能引用 (What are Smart Citations?)

Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 开关

正文：alphaXiv (What is alphaXiv?)

代码链接开关

CatalyzeX 论文代码查找器 (What is CatalyzeX?)

DagsHub 开关

正文：DagsHub (What is DagsHub?)

GotitPub 开关

正文：Gotit.pub (What is GotitPub?)

Huggingface 开关

正文：Hugging Face (What is Huggingface?)

ScienceCast 开关

正文：ScienceCast (What is ScienceCast?)

Demos

演示

Replicate 开关

正文：Replicate (What is Replicate?)

Spaces 开关

正文：Hugging Face Spaces (What is Spaces?)

Spaces 开关

正文：TXYZ.AI (What is TXYZ.AI?)

arXivLabs：与社区合作者开展的实验性项目

arXivLabs 是一个框架，允许合作者直接在我们的网站上开发和分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织均已认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观，并且只与遵守这些价值观的合作伙伴合作。

有能为 arXiv 社区增加价值的项目想法吗？了解更多关于 arXivLabs 的信息。

TempoVLA：学习速度可控的视觉-语言-动作策略