元鉴
返回中文阅读流
arXiv2026-06-11

DAM-VLA:解耦异步多模态视觉-语言-动作模型

VLA 模型以同一速率处理所有输入,与物理交互中的多频率模态不匹配。作者假设按模态解耦时序处理可提升表征与控制鲁棒性。

全文已翻译professional source英文原文完整正文
摘要

VLA 模型以同一速率处理所有输入,与物理交互中的多频率模态不匹配。作者假设按模态解耦时序处理可提升表征与控制鲁棒性。

计算机科学 > 机器人学

[提交于 2026年6月10日]

标题:DAM-VLA:解耦异步多模态视觉-语言-动作模型

View PDF HTML (experimental)
摘要:视觉-语言-动作(VLA)模型继承了视觉-语言预训练中的共享同步时钟,以同一速率处理每个输入。这与物理交互并不匹配:高频模态会以数百赫兹变化,视觉演化更慢,而语言在一次情节中保持不变。同步 VLA 会对慢速模态过采样、对快速模态欠采样,并将动作生成限制在最低有效频率。我们假设,按模态解耦时序处理,使每种模态都能按自身传感器速率更新并保留信息,可以产生更强的表征和更鲁棒的控制。我们提出 DAM-VLA,它维护按传感器速率刷新的各模态潜在缓冲区,并由动作头连续读取;通过门控交叉注意力整合新的高频模态,同时保持预训练骨干网络 inta
Comments: Subjects: 机器人学(cs.RO); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) Cite as: arXiv:2606.12105 [cs.RO]   (or arXiv:2606.12105v1 [cs.RO] for this version)   https://doi.org/10.48550/arXiv.2606.12105
聚焦以了解更多
arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Pankhuri Vanjani [view email]
[v1] Wed, 10 Jun 2026 13:59:07 UTC (6,954 KB)
全文链接:

访问论文:

当前浏览上下文:

正文:cs.RO
< prev   |   next >
Change to browse by:

参考文献与引用

  • 正文:NASA ADS
  • 正文:Google Scholar
  • 正文:Semantic Scholar
export BibTeX citation 加载中...

BibTeX 格式引用

×
加载中...
数据提供方:

收藏

BibSonomy Reddit
Bibliographic Tools

书目与引用工具

书目浏览器开关
书目浏览器 (What is the Explorer?)
Connected Papers 开关
正文:Connected Papers (What is Connected Papers?)
Litmaps 开关
正文:Litmaps (What is Litmaps?)
scite.ai 开关
scite 智能引用 (What are Smart Citations?)
Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 开关
正文:alphaXiv (What is alphaXiv?)
代码链接开关
CatalyzeX 论文代码查找器 (What is CatalyzeX?)
DagsHub 开关
正文:DagsHub (What is DagsHub?)
GotitPub 开关
正文:Gotit.pub (What is GotitPub?)
Huggingface 开关
正文:Hugging Face (What is Huggingface?)
ScienceCast 开关
正文:ScienceCast (What is ScienceCast?)
Demos

演示

Replicate 开关
正文:Replicate (What is Replicate?)
Spaces 开关
正文:Hugging Face Spaces (What is Spaces?)
Spaces 开关
正文:TXYZ.AI (What is TXYZ.AI?)
Related Papers

推荐与搜索工具

链接到 Influence Flower
正文:Influence Flower (What are Influence Flowers?)
CORE 推荐器 (What is CORE?)
  • 作者
  • 发表场所
  • 机构
  • 主题
About arXivLabs

arXivLabs:与社区合作者开展的实验性项目

arXivLabs 是一个框架,允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织都认同并接受我们关于开放性、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有能为 arXiv 社区增加价值的项目想法?了解更多关于 arXivLabs 的信息。