摘要

VLA 模型以同一速率处理所有输入，与物理交互中的多频率模态不匹配。作者假设按模态解耦时序处理可提升表征与控制鲁棒性。

计算机科学 > 机器人学

[提交于 2026年6月10日]

标题：DAM-VLA：解耦异步多模态视觉-语言-动作模型

作者：Pankhuri Vanjani, Zhuoyue Li, Jakub Suliga, Moritz Reuss, Gianluca Geraci, Xinkai Jiang, Rudolf Lioutikov

摘要：视觉-语言-动作（VLA）模型继承了视觉-语言预训练中的共享同步时钟，以同一速率处理每个输入。这与物理交互并不匹配：高频模态会以数百赫兹变化，视觉演化更慢，而语言在一次情节中保持不变。同步 VLA 会对慢速模态过采样、对快速模态欠采样，并将动作生成限制在最低有效频率。我们假设，按模态解耦时序处理，使每种模态都能按自身传感器速率更新并保留信息，可以产生更强的表征和更鲁棒的控制。我们提出 DAM-VLA，它维护按传感器速率刷新的各模态潜在缓冲区，并由动作头连续读取；通过门控交叉注意力整合新的高频模态，同时保持预训练骨干网络 inta

Comments: Subjects: 机器人学（cs.RO）; Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) Cite as: arXiv:2606.12105 [cs.RO] (or arXiv:2606.12105v1 [cs.RO] for this version) https://doi.org/10.48550/arXiv.2606.12105

聚焦以了解更多

arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Pankhuri Vanjani [view email]
[v1] Wed, 10 Jun 2026 13:59:07 UTC (6,954 KB)

全文链接：

访问论文：

查看许可证

当前浏览上下文：

正文：cs.RO

< prev | next >

new | recent | 2026-06

Change to browse by:

cs
cs.CV
cs.LG

参考文献与引用

正文：NASA ADS
正文：Google Scholar
正文：Semantic Scholar

export BibTeX citation 加载中...

BibTeX 格式引用

加载中...

数据提供方：

Bibliographic Tools

书目与引用工具

书目浏览器开关

书目浏览器 (What is the Explorer?)

Connected Papers 开关

正文：Connected Papers (What is Connected Papers?)

Litmaps 开关

正文：Litmaps (What is Litmaps?)

scite.ai 开关

scite 智能引用 (What are Smart Citations?)

Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 开关

正文：alphaXiv (What is alphaXiv?)

代码链接开关

CatalyzeX 论文代码查找器 (What is CatalyzeX?)

DagsHub 开关

正文：DagsHub (What is DagsHub?)

GotitPub 开关

正文：Gotit.pub (What is GotitPub?)

Huggingface 开关

正文：Hugging Face (What is Huggingface?)

ScienceCast 开关

正文：ScienceCast (What is ScienceCast?)

Demos

演示

Replicate 开关

正文：Replicate (What is Replicate?)

Spaces 开关

正文：Hugging Face Spaces (What is Spaces?)

Spaces 开关

正文：TXYZ.AI (What is TXYZ.AI?)

arXivLabs：与社区合作者开展的实验性项目

arXivLabs 是一个框架，允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织都认同并接受我们关于开放性、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观，并且只与遵守这些价值观的合作伙伴合作。

有能为 arXiv 社区增加价值的项目想法？了解更多关于 arXivLabs 的信息。

DAM-VLA：解耦异步多模态视觉-语言-动作模型