元鉴
返回中文阅读流

Microsoft Research Blog

Microsoft 在 NSDI 2026:大规模网络化系统的进展

Microsoft 研究人员在 NSDI ’26 分享构建和运营大规模分布式系统的进展,涵盖数据中心、网络及其与 AI 的交汇。

中文内容

已翻译official company source英文原文2026-05-05
NSDI ’26 logo in white, centered on a smooth gradient background transitioning from blue to purple and pink.

大规模网络化系统支撑着云计算、AI 以及分布式应用和服务。USENIX 网络化系统设计与实现研讨会 2026(在新标签页中打开)(NSDI ’26)是一个领先论坛,研究人员和从业者在此分享这些系统设计与运营方面的新研究、见解和进展。

Microsoft 很荣幸继续作为赞助商支持 NSDI ’26,这体现了我们持续推进系统与网络研究并与更广泛社区互动的承诺。Microsoft 研究人员和工程负责人也在项目委员会及其他组织角色中任职。

今年,Microsoft 作者及其合作者的 11 篇论文被大会接收,涵盖数据中心和广域网、AI 系统以及云基础设施。它们共同展示了构建和运营大规模网络化系统方面的进展。

技术会议

5 月 4 日,星期一,下午 2:00–3:20

DroidSpeak:在微调模型变体之间共享 KV 缓存(在新标签页中打开)

Yuhan Liu、Yuyang Huang、Jiayi Yao、Zhuohan Gu、Kuntai Du、Hanchen Li、Yihua Cheng 和 Junchen Jiang,University of Chicago;Shan Lu、Madan Musuvathi 和 Esha Choukse,Microsoft

DroidSpeak 使具有相同架构的 LLM 能够在不同模型之间共享并部分复用 KV 缓存,在对输出质量影响极小的情况下,实现最高 4 倍的吞吐量提升和更快响应。

5 月 4 日,星期一,下午 3:50–5:30

Eywa:使用 LLM 自动化基于模型的测试(在新标签页中打开)

Rajdeep Mondal、Rathin Singha、Todd D. Millstein 和 George Varghese,UCLA;Ryan Beckett 和 Siva Kesava Reddy Kakarla,Microsoft Research

Eywa 使用 LLM 从自然语言来源自动构建协议模型,从而实现基于模型的测试。它在广泛使用的网络协议实现中发现了 33 个 bug,其中包括 16 个此前未知的 bug。

5 月 5 日,星期二,下午 2:00–3:20

Octopus:通过稀疏拓扑增强 CXL 内存 Pod(在新标签页中打开)

Yuhong Zhong,Columbia University;Fiodar Kazhamiaka、Pantea Zardoshti、Shuwei Teng 和 Rodrigo Fonseca,Microsoft Azure;Mark D. Hill,University of Wisconsin-Madison;Daniel S. Berger,Microsoft Azure 和 University of Washington

Octopus 为分解式内存 Pod 引入了一种无交换机设计,可降低成本并扩展到多机架 Pod。在一个三服务器硬件原型上,Octopus RPC 比机架内 RDMA 快 3.2 倍,比 CXL 交换机快 2.4 倍。

5 月 5 日,星期二,下午 3:50–5:30

HEDGE:具有概率链路容量的流量工程(在新标签页中打开)

正文:Arjun Devraj,Cornell University;Bill Owens,NYSERNet;Umesh Krishnaswamy,Microsoft;Ying Zhang,Meta;Rachee Singh,Cornell University

HEDGE 通过结合链路本地和全网全局韧性,缓解光网络中与特定波长相关的故障,在链路性能波动时保持稳定容量并优化流量。它在降低网络中断的同时,达到现有系统的吞吐量水平。

5 月 6 日,星期三,上午 9:00–10:20

AVA:迈向使用视觉语言模型的视频分析(在新标签页中打开)

Yuxuan Yan,Zhejiang University;Shiqi Jiang,Microsoft Research;Ting Cao,Tsinghua University;Yifan Yang,Microsoft Research;Qianqian Yang 和 Yuanchao Shu,Zhejiang University;Yuqing Yang 和 Lili Qiu,Microsoft Research

AVA 通过将事件知识图谱与基于视觉语言模型的智能体式检索相结合,支持开放式视频分析。此外,为评估超长、开放世界场景中的视频分析,作者引入了 AVA-100 基准,包含 8 个每个超过 10 小时的视频,以及 120 组人工标注、多样且复杂的问答对;在该基准上,AVA 达到 75.8% 的准确率。

5 月 6 日,星期三,上午 9:00–10:20

借助 Pyrocumulus 为存储优化型 VM 实现 SmartNIC 支持的实时迁移(在新标签页中打开)

Jiechen Zhao,University of Toronto 和 Microsoft Research Asia;Ran Shu、Lei Qu、Ziyue Yang 和 Rui Ma,Microsoft Research Asia;Derek Chiou,Microsoft 和 UT Austin;Natalie Enright Jerger,University of Toronto;Peng Cheng 和 Yongqiang Xiong,Microsoft Research Asia

Pyrocumulus 通过 FPGA SmartNIC 的硬件可定制性和高效网络可访问性,并结合 LM 协议、架构和算法设计,为存储优化型 VM 实现快速、低开销的实时迁移。

5 月 6 日,星期三,上午 10:50–下午 12:30

ForestColl:异构网络结构上的吞吐量最优集合通信(在新标签页中打开)

Liangyu Zhao,University of Washington;Saeed Maleki,独立研究者;Yuanhong Wang,Tsinghua University;Zezhou Wang,University of Washington;Ziyue Yang,Microsoft Research;Hossein Pourreza,Microsoft;Arvind Krishnamurthy,University of Washington

ForestColl 将广播/聚合生成树构建为通信调度,实现理论最优性。其调度生成以多项式时间运行,并且具有高度可扩展性。它支持任何网络结构,包括交换结构和直接加速器连接。

5 月 6 日,星期三,上午 10:50–下午 12:30

通过符号引导优化从源代码进行启发式分析(在新标签页中打开)

Pantea Karimi,MIT;Siva Kesava Reddy Kakarla 和 Ryan Beckett,Microsoft Research;Santiago Segarra,Rice University;Pooria Namyar,Microsoft Research;Mohammad Alizadeh,MIT;Behnaz Arzani,Microsoft Research

MetaEase 直接从源代码分析启发式方法,以发现最坏情况下的性能场景,无需复杂的形式化建模。它在多个领域达到或超过最先进分析器的表现,并揭示了真实系统中此前未知的性能差距。

5 月 6 日,星期三,下午 2:00–3:20

在容器系统中收集空闲 CPU 资源(在新标签页中打开)

Adam Hall 和 Anirudh Sarma,Georgia Institute of Technology;Esha Choukse,Microsoft Azure Research;Umakishore Ramachandran,Georgia Institute of Technology;Sameh Elnikety,Microsoft Research

HarvestContainers 在利用延迟敏感型容器的空闲 CPU 核心运行延迟容忍型工作负载的同时,保护这些容器免受干扰。它动态确定可安全收集的核心数量,并且不需要更改应用程序或操作系统。它可实现最高 75% 的空闲 CPU 利用率,同时将尾延迟保持在独立运行性能 4% 以内。

5 月 6 日,星期三,下午 3:50–5:30

使用 SONiC DASH SmartSwitch 在生产规模卸载云网络服务(在新标签页中打开)

社区奖获奖者

Shaofeng Wu,The Chinese University of Hong Kong 和 Microsoft Research Asia;Zhixiong Niu,Microsoft Research Asia;Riff Jiang、Lawrence Lee、Junhua Zhai、Ze Gan、Vasundhara Volam、Prabhat Aravind、Prince Sunny、Prince George、Qi Luo、Evan Langlais、Soumya Tiwari、Venkat Satish Katta、Weixi Chen、Rishiraj Hazarika、Sachin Jain、Deven Jagasia、Michal Zygmunt、Avijit Gupta、Neeraj Motwani 和 Pranjal Shrivastava,Microsoft;Qiang Su,The Chinese University of Hong Kong;Anil Reddy Pannala、Kristina Moore、James Grantham、Anupam Pandey、Xin Liu、Guohan Lu、Gerald De Grace、Rishabh Tewari、Lihua Yuan、Erica Lan、Deepak Bansal 和 Dave Maltz,Microsoft;Yongqiang Xiong,Microsoft Research Asia;Hong Xu,The Chinese University of Hong Kong

SONiC DASH SmartSwitch 通过硬件友好的流水线、统一的交换机架构和开放开发模式重新设计云网络卸载,同时应对关键的可扩展性和部署挑战。它已在 Azure 中大规模部署,提供高吞吐量和连接容量,同时显著提升电力和空间效率。

5 月 6 日,星期三,下午 3:50–5:30

KRAKENGUARD:迈向细粒度 eBPF 隔离(在新标签页中打开)

正文:Jainil Patel,IIT Roorkee;Lucas Graeff Buhl-Nielsen,Quantco;Adrien Ghosn,Microsoft;Marios Kogias,Imperial College London

KRAKENGUARD 使用符号执行,在加载时对 eBPF 程序实施基于策略的细粒度控制,使其可在多租户环境中安全使用,而不依赖粗粒度的 Linux capabilities。它可阻止恶意行为、检测漏洞,并允许以强隔离保证安全执行不受信任的程序。

来自 Microsoft 的研讨会组织者

项目委员会

Ganesh Ananthanarayanan、Behnaz Arzani、Hitesh Ballani、Ryan Beckett、Ranveer Chandra、Paolo Costa、Rodrigo Fonseca、Xenofon Foukas、Kevin Hsieh、Umesh Krishnaswamy(在新标签页中打开)、Jing Liu、Jonathan Mace、Dave Maltz、Sathiya Mani、Dushyanth Narayanan、Suman Nath、Ram Ramjee、Stefan Saroiu

指导委员会

正文:Sujata Banerjee、Jay Lorch

在新标签页中打开

原文标题

Microsoft at NSDI 2026: Advances in large-scale networked systems