中文内容

概览
- MagenticLite 是一款智能体应用,可在单一工作流中同时跨浏览器和本地文件系统运行。作为 Magentic-UI 的下一代产品,它将重新设计的应用与针对小模型优化的运行框架相结合。
- MagenticBrain 和 Fara1.5 是分别面向编排任务和计算机使用任务设计的小模型。Fara1.5 是 Fara 的下一代版本,在真实世界的浏览器任务中实现了可衡量的提升。
- 这些发布共同探索了通过更小的模型、协同设计的工具以及优化的执行框架,智能体性能究竟能够被推进到何种程度。
今天,Microsoft Research AI Frontiers 发布了 MagenticLite(在新标签页中打开),这是一款为小型模型设计的实验性智能体应用。作为 Magentic-UI 的下一代产品,它可在单一工作流中跨浏览器和本地文件系统运行。
MagenticLite 由两个专门构建的模型驱动:MagenticBrain,用于推理、委派和终端使用;以及 Fara1.5,一个用于基于浏览器任务的计算机使用模型家族。这三个组件被设计为作为一个单一系统协同工作。其结果是一个运行高效、将数据保留在用户机器上,并支持广泛智能体任务的智能体。它还指向一个更广泛的目标:能够直接在用户硬件上运行的高能力智能体。
该项目围绕一个关键研究判断构建:智能体能力取决于工具编排和行动,而不仅仅是知识。这一洞见使得使用更小的模型成为可能,同时仍能以极低的成本支持广泛的智能体任务。
MagenticLite 也反映了我们如何端到端地推进智能体 AI——从训练数据和模型设计,到编排、交互设计,以及贯穿整个体验的人类监督。

本次发布包含
MagenticLite(在新标签页中打开)
Magentic-UI 的下一代版本是我们的实验性智能体体验,由为小型模型重构的智能体框架提供支持,并配备了根据社区反馈更新的用户界面。它可在单一工作流中跨用户浏览器和本地文件系统运行。
MagenticBrain(在新标签页中打开)
MagenticBrain 集 MagenticLite 的规划器、编码器和委派器于一身。它能将模糊请求转化为具体计划,为每个步骤选择合适的工具或子智能体,在需要时编写代码,并在任务中途出现问题时进行恢复。
正文:Fara1.5
Fara1.5 是我们计算机使用模型家族的下一代产品,提供三种规模,其中旗舰版为 90 亿参数模型,适用于大多数用例。Fara1.5 在小型计算机使用模型中取得了新的最先进(SOTA)成果,并且在网页导航方面的表现几乎达到 Fara-7B 的两倍,对表单、需凭证登录的网站和长时间运行任务的处理更加精准。
每个组件本身都有用,但它们协同工作时效果最佳。对应用、模型和运行框架进行协同设计,使得在这一规模下实现强大且可靠的代理式性能成为可能。
我们的研究方法:用更少资源实现更多成果
我们从一个简单的问题出发:要让一个小模型真正擅长代理式任务,需要什么?答案贯穿了整个生命周期——数据生成、训练目标、模型设计和编排都必须协同重新设计,而不是彼此孤立地进行。
我们从真实世界用例中确定了需求,例如填写表单、进行浏览器研究以及在本地管理文件,并围绕这些需求构建了评估数据集。标准基准测试能反映部分情况,但它们并不总是对真实世界实用性的直接衡量。基于场景的评估补充了这些基准测试,并成为模型和运行框架迭代改进的关键信号,如图 2 所示。

在用户体验方面,我们保留了 Magentic-UI 的关键元素,包括对智能体推理和行动的可见性、用户直接接管控制的能力,以及在关键节点进行明确批准。基于近期的用户研究,我们还通过更新后的浏览器和聊天视图,使 MagenticLite 更易于学习和协作;这些视图旨在让用户更容易理解智能体的行动,并在需要时进行干预。如图 3 所示。

系统组件
Fara1.5:一款性能超越其参数量级的计算机使用模型
Fara1.5 是我们计算机使用模型家族的下一代产品,提供三种规模,其中旗舰级 9B 模型推荐用于大多数使用场景。Fara1.5 在小型计算机使用模型中实现了新的 SOTA 性能,并且在网页导航方面的表现几乎达到 Fara-7B 的两倍,同时在处理表单、需要凭据的网站和长时间运行任务方面表现更好。
去年 11 月,我们发布了 Fara-7B,这是一款小型智能体模型,专为在网页浏览器中完成任务而构建。它使用一种新颖的合成数据生成引擎进行训练,从而实现了同类最佳性能。Fara1.5 是这一押注的下一步:一个由三款模型(4B、9B、27B)组成的系列,基于 Qwen 3.5,旨在弥补我们在上一版本中看到的差距。
新特性
最先进的结果。在流行的 Online-Mind2Web 基准测试中(该基准包含跨常用网络领域的 300 项任务),Fara1.5 在其同等规模模型中取得了新的 SOTA 结果。Fara1.5 的表现超过所有规模相近的模型,并且几乎使 Fara-7B 的性能翻倍。更大的 Fara1.5-27B 变体在同一基准测试中的性能超过 90%。

改进的用户体验。除了在基准测试上的提升之外,我们还改进了 Fara1.5 的用户体验。用户应能观察到其在填写表单、处理需要凭据的网站登录以及预约等日常任务上的表现更强。这些改进由我们的 FaraGen 数据生成管线的下一步演进所驱动。除了在实时网站上进行训练之外,我们还在高度逼真的合成环境中训练了该模型,这些环境旨在模拟登录和不可逆操作等场景。
为长时间运行任务调优的原生动作空间。除点击和键盘操作之外,Fara1.5 还内置了工具,可在数百个步骤中将关键信息存储在其上下文中,并在需要时向用户请求许可或偏好,从而帮助它在跨越数分钟真实工作的任务中保持连贯。
重新校准关键点。Fara-7B 经过训练,可检测交易、登录流程或不可逆提交等活动中的关键点并进行标记。在 Fara1.5 中,我们基于实际使用中的经验,围绕关键点完善了设计,使安全触发仍会在应当发生时发生,但不会阻碍有用任务,例如填写表单。

MagenticBrain:编排器模型
MagenticBrain 是一个 140 亿参数的编排模型——集规划器、编码器和委派器于一体。MagenticBrain 基于 Qwen 3 14B 进行微调,并在 MagenticLite harness 内进行端到端训练,使用与其在推理时将遇到的相同工具模式和执行环境。因此,它学习编排的方式与其运行方式之间不存在差距。
在许多智能体系统中,编排(规划与协调)是最依赖推理能力的组件,因此团队历来依赖其能力最强的模型来承担这一角色。我们的判断是,小模型也可以胜任这一角色,而不会牺牲能力。有两个设计选择使这一点成为可能。
第一个选择涉及将多步工具调用轨迹与编码和终端轨迹相结合:在多步工具调用轨迹中,模型学习选择正确的工具并正确调用它;而在编码和终端轨迹中,正确答案有时是五行 Python,而不是一次工具调用。这还配合了训练和推理期间所用工具格式之间的紧密耦合。
第二个选择是计算机使用智能体(CUA)委派。编排器工作中的一个关键部分,是知道何时不应自行行动,而是将任务交接给 Fara1.5。我们的数据管线包含显式委派轨迹:在这些序列中,编排器识别出浏览器或用户界面(UI)任务,向 CUA 模型发出结构化交接,等待结果,然后继续执行任务。其结果是一个编排器模型,能够在单个 14B 规模内流畅地进行推理、编写代码、调用工具和委派任务。我们正在发布 MagenticBrain,它设计用于与 MagenticLite 配合使用。

Harness:为小型模型而构建
该 harness 将编排器和浏览器使用模型整合到一个工作流中。最重要的有三项设计选择:
- 逐步规划。该 harness 以增量方式进行规划,使系统保持灵活,并在长时间运行的任务中实现更顺畅的路线修正和恢复。
- 主动上下文管理。小模型的有效上下文窗口更小,并且会随着上下文增长而更快退化。该框架会主动整理每个模型在每一步接收到的内容,使提示保持聚焦,只呈现必要信息,将先前交互压缩为简明摘要,并将其余内容卸载,从而使编排器和 Fara1.5 在长任务中仍能保持有效。
- 通过子代理进行委派。该编排器并不依赖单个小模型处理所有任务,而是作为主代理,将专门工作委派给子代理。这意味着将浏览器任务交给 Fara1.5。这种模式通过让每个模型处理问题中范围更窄、更专门的部分,发挥了小语言模型的优势。它也为未来扩展奠定了基础:后续版本可以引入更多子代理,并让它们并行运行,以实现更丰富、更高效的工作流。
该框架保留了 Magentic-UI 1.0 的人类参与保障。浏览器和代码操作中的关键节点仍会暂停,以等待用户明确批准;整个系统运行在 Quicksand(在新标签页中打开)内部,这是一个为基于 QEMU 的沙箱创建的开源封装器,可将浏览器会话和代码执行与主机系统隔离。

查看实际演示
MagenticLite 可以在浏览器和本地文件系统中执行广泛的任务,例如填写表单、预约、整理本地文件,以及搜索和分析信息。
试用它,并与我们一起构建
MagenticLite、MagenticBrain 和 Fara1.5 是研究版本,旨在支持持续探索和开发。我们发布它们是为了鼓励更广泛的社区进行实验、评估并提供反馈。
- MagenticLite 是 Magentic-UI 的更新版本,可在 GitHub(在新标签页中打开)获取。
- MagenticBrain 可在 Microsoft Foundry(在新标签页中打开)获取。
- Fara1.5 模型可在 Microsoft Foundry(在新标签页中打开)获取。
贡献者
- 智能体体验:Cheng Tan、Maya Murad、Weili Shi
- 智能体框架:Adam Fourney、Tyler Payne
- 正文:Fara1.5:Alexey Taymanov、Andrew Zhao、Aravind Rajeswaran、Corby Rosset、Hussein Mozannar、Luiz Do Valle、Spencer Whitehead、Vibhav Vineet、Zach Nussbaum、Sahil Gupta、Yadong Lu
- 正文:MagenticBrain:Ahmed Elgohary Ghoneim、Akshay Nambi、Amir Saeidi、Caio César Teodoro Mendes、Harkirat Behl、Karan Gupta、Pashmina Cameron、Pranav Vajreshwari、Shital Shah、Yash Lara、Yash Pandya
- 合作者:Abhishek Gowami、Amanda Swearngin、Michael Harrison、Sara Abdali、Sarthak Harne、Vidhisha Balachandran
- 项目负责人:Ahmed Awadallah、Rafah Hosn
- 赞助人:Ahmed Awadallah、Ece Kamar、Rafah Hosn、Saleema Amershi、Shital Shah




