元鉴
返回中文阅读流

arXiv

Vortex:面向 AI Agents 的高效且可编程稀疏注意力服务

稀疏注意力对长文本 LLM 服务日益重要。Vortex 用可编程前端和高效后端加速算法原型、部署与评估。

中文内容

已翻译professional source英文原文2026-06-06

计算机科学 > 人工智能

[提交于 2026 年 6 月 4 日]

标题:Vortex:面向 AI Agents 的高效且可编程稀疏注意力服务

View PDF HTML (experimental)
摘要:随着生成长度持续增长,稀疏注意力对于服务大型语言模型(LLMs)正变得越来越重要。然而,大规模部署和评估新的稀疏注意力算法仍然高度依赖工程投入,减缓了人类研究人员和 AI Agents 探索稀疏注意力设计的进程。为应对这一挑战,我们提出 Vortex,这是一个系统:它在以页面为中心的张量抽象之上结合了嵌入 Python 的前端语言,用于表达广泛的稀疏注意力算法,并配备与现代 LLM 服务栈紧密集成的高效后端。Vortex 支持稀疏注意力算法的快速原型设计、部署和评估,有效地将其理论效率收益转化为真实世界的吞吐量提升。因此,Vortex 显著加速了稀疏注意力的设计与迭代
Subjects: 人工智能(cs.AI) Cite as: arXiv:2606.06453 [cs.AI]   (or arXiv:2606.06453v1 [cs.AI] for this version)   https://doi.org/10.48550/arXiv.2606.06453
聚焦以了解更多
arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Zhuoming Chen [view email]
[v1] Thu, 4 Jun 2026 17:48:17 UTC (1,378 KB)
全文链接:

访问论文:

当前浏览上下文:

正文:cs.AI
< prev   |   next >
Change to browse by:
cs

参考文献与引用

  • 正文:NASA ADS
  • 正文:Google Scholar
  • 正文:Semantic Scholar
export BibTeX citation 加载中...

BibTeX 格式引用

×
加载中...
数据提供方:

收藏

BibSonomy Reddit
Bibliographic Tools

书目与引用工具

书目浏览器开关
书目浏览器 (What is the Explorer?)
Connected Papers 开关
正文:Connected Papers (What is Connected Papers?)
Litmaps 开关
正文:Litmaps (What is Litmaps?)
scite.ai 开关
正文:scite Smart Citations (What are Smart Citations?)
Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 开关
正文:alphaXiv (What is alphaXiv?)
代码链接开关
CatalyzeX 论文代码查找器 (What is CatalyzeX?)
DagsHub 开关
正文:DagsHub (What is DagsHub?)
GotitPub 开关
正文:Gotit.pub (What is GotitPub?)
Huggingface 开关
正文:Hugging Face (What is Huggingface?)
ScienceCast 开关
正文:ScienceCast (What is ScienceCast?)
Demos

演示

Replicate 开关
正文:Replicate (What is Replicate?)
Spaces 开关
正文:Hugging Face Spaces (What is Spaces?)
Spaces 开关
正文:TXYZ.AI (What is TXYZ.AI?)
Related Papers

推荐与搜索工具

链接到 Influence Flower
正文:Influence Flower (What are Influence Flowers?)
CORE 推荐器 (What is CORE?)
  • 作者
  • 会议/期刊
  • 机构
  • 主题
About arXivLabs

arXivLabs:与社区合作者开展的实验性项目

arXivLabs 是一个框架,允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织都认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵循这些价值观的合作伙伴合作。

有一个能为 arXiv 社区增加价值的项目想法吗?了解更多关于 arXivLabs 的信息。

原文标题

Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents