摘要

本文提出2026 SoccerNet VQA挑战方案：构建VLM驱动的数据合成流程，并提出由LLM调度多专家的MSUE架构。

计算机科学 > 计算机视觉与模式识别

[提交于 2026年6月10日]

标题：MSUE：多模态足球理解专家

作者：Litao Li, Yibo Yu, Yufeng Hu, Zhuo Yang, Jiali Wen, Yixin Chen, Yixi Zhou

摘要：本文介绍了我们针对 2026 SoccerNet VQA Challenge 的解决方案。首先，我们开发了一条由视觉语言模型（VLM）驱动的高成本效益数据合成流水线，系统地将原始领域数据重构为多样化的 VQA 样本，包括简洁答案和长篇回答。其次，我们提出 MSUE，这是一种多专家问答架构，使用大型语言模型（LLM）将问题动态分派给文本、图像和视频专家。这些专家分别实例化为强文本基线 Gemini3-Flash、经过微调的 Qwen3-VL，以及外部知识库，协同工作以提升 VQA 性能。MSUE 在挑战基准上达到 \textbf{0.95} 的准确率，在排行榜中获得第三名。

Comments: Subjects: 计算机视觉与模式识别（cs.CV）; Artificial Intelligence (cs.AI) Cite as: arXiv:2606.12106 [cs.CV] (or arXiv:2606.12106v1 [cs.CV] for this version) https://doi.org/10.48550/arXiv.2606.12106

聚焦以了解更多

arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Litao Li [view email]
[v1] Wed, 10 Jun 2026 14:00:55 UTC (181 KB)

全文链接：

访问论文：

view license

当前浏览上下文：

正文：cs.CV

< prev | next >

new | recent | 2026-06

Change to browse by:

cs
cs.AI

参考文献与引用

正文：NASA ADS
正文：Google Scholar
正文：Semantic Scholar

export BibTeX citation 加载中……

BibTeX 格式引用

加载中……

数据提供方：

书签

Bibliographic Tools

文献与引用工具

文献浏览器切换

文献浏览器 (What is the Explorer?)

Connected Papers 切换

正文：Connected Papers (What is Connected Papers?)

Litmaps 切换

正文：Litmaps (What is Litmaps?)

scite.ai 切换

正文：scite Smart Citations (What are Smart Citations?)

Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 切换

正文：alphaXiv (What is alphaXiv?)

代码链接切换

CatalyzeX 论文代码查找器 (What is CatalyzeX?)

DagsHub 切换

正文：DagsHub (What is DagsHub?)

GotitPub 切换

正文：Gotit.pub (What is GotitPub?)

Huggingface 切换

正文：Hugging Face (What is Huggingface?)

ScienceCast 切换

正文：ScienceCast (What is ScienceCast?)

Demos

演示

Replicate 切换

正文：Replicate (What is Replicate?)

Spaces 切换

正文：Hugging Face Spaces (What is Spaces?)

Spaces 切换

正文：TXYZ.AI (What is TXYZ.AI?)

arXivLabs：与社区合作者开展的实验性项目

arXivLabs 是一个框架，允许合作者直接在我们的网站上开发和分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织都认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观，并且只与遵循这些价值观的合作伙伴合作。

有一个能为 arXiv 社区增值的项目想法吗？了解更多关于 arXivLabs 的信息。