摘要
本文提出2026 SoccerNet VQA挑战方案:构建VLM驱动的数据合成流程,并提出由LLM调度多专家的MSUE架构。
计算机科学 > 计算机视觉与模式识别
[提交于 2026年6月10日]
标题:MSUE:多模态足球理解专家
View PDF HTML (experimental)摘要:本文介绍了我们针对 2026 SoccerNet VQA Challenge 的解决方案。首先,我们开发了一条由视觉语言模型(VLM)驱动的高成本效益数据合成流水线,系统地将原始领域数据重构为多样化的 VQA 样本,包括简洁答案和长篇回答。其次,我们提出 MSUE,这是一种多专家问答架构,使用大型语言模型(LLM)将问题动态分派给文本、图像和视频专家。这些专家分别实例化为强文本基线 Gemini3-Flash、经过微调的 Qwen3-VL,以及外部知识库,协同工作以提升 VQA 性能。MSUE 在挑战基准上达到 \textbf{0.95} 的准确率,在排行榜中获得第三名。
Comments:
Subjects:
计算机视觉与模式识别(cs.CV); Artificial Intelligence (cs.AI)
Cite as:
arXiv:2606.12106 [cs.CV]
(or
arXiv:2606.12106v1 [cs.CV] for this version)
https://doi.org/10.48550/arXiv.2606.12106
聚焦以了解更多
arXiv-issued DOI via DataCite (pending registration)
参考文献与引用
- 正文:NASA ADS
- 正文:Google Scholar
- 正文:Semantic Scholar
export BibTeX citation
加载中……
Bibliographic Tools
Code, Data, Media
Demos
Related Papers
About arXivLabs





文献与引用工具
文献浏览器切换
文献浏览器 (What is the Explorer?)
Connected Papers 切换
正文:Connected Papers (What is Connected Papers?)
Litmaps 切换
正文:Litmaps (What is Litmaps?)
scite.ai 切换
正文:scite Smart Citations (What are Smart Citations?)
与本文相关的代码、数据和媒体
alphaXiv 切换
正文:alphaXiv (What is alphaXiv?)
代码链接切换
CatalyzeX 论文代码查找器 (What is CatalyzeX?)
DagsHub 切换
正文:DagsHub (What is DagsHub?)
GotitPub 切换
正文:Gotit.pub (What is GotitPub?)
Huggingface 切换
正文:Hugging Face (What is Huggingface?)
ScienceCast 切换
正文:ScienceCast (What is ScienceCast?)
演示
Replicate 切换
正文:Replicate (What is Replicate?)
Spaces 切换
正文:Hugging Face Spaces (What is Spaces?)
Spaces 切换
正文:TXYZ.AI (What is TXYZ.AI?)
推荐与搜索工具
链接到 Influence Flower
正文:Influence Flower (What are Influence Flowers?)
CORE 推荐器 (What is CORE?)
- 作者
- 发表场所
- 机构
- 主题
arXivLabs:与社区合作者开展的实验性项目
arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和分享新的 arXiv 功能。
与 arXivLabs 合作的个人和组织都认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵循这些价值观的合作伙伴合作。
有一个能为 arXiv 社区增值的项目想法吗?了解更多关于 arXivLabs 的信息。

