元鉴
返回中文阅读流

Microsoft Research Blog

MagenticLite, MagenticBrain, Fara1.5:针对小模型优化的代理体验

MagenticLite 是专为小模型设计的代理系统,可在浏览器和本地文件系统中单工作流运行。结合专用模型与编排,支持日常任务的高效代理性能。首发于 Microsoft Research。

中文内容

已翻译official company source英文原文2026-05-21
MagenticLite

概览

  • MagenticLite 是一款智能体应用,可在单一工作流中同时跨浏览器和本地文件系统运行。作为 Magentic-UI 的下一代产品,它将重新设计的应用与针对小模型优化的运行框架相结合。
  • MagenticBrain 和 Fara1.5 是分别面向编排任务和计算机使用任务设计的小模型。Fara1.5 是 Fara 的下一代版本,在真实世界的浏览器任务中实现了可衡量的提升。
  • 这些发布共同探索了通过更小的模型、协同设计的工具以及优化的执行框架,智能体性能究竟能够被推进到何种程度。

今天,Microsoft Research AI Frontiers 发布了 MagenticLite(在新标签页中打开),这是一款为小型模型设计的实验性智能体应用。作为 Magentic-UI 的下一代产品,它可在单一工作流中跨浏览器和本地文件系统运行。

MagenticLite 由两个专门构建的模型驱动:MagenticBrain,用于推理、委派和终端使用;以及 Fara1.5,一个用于基于浏览器任务的计算机使用模型家族。这三个组件被设计为作为一个单一系统协同工作。其结果是一个运行高效、将数据保留在用户机器上,并支持广泛智能体任务的智能体。它还指向一个更广泛的目标:能够直接在用户硬件上运行的高能力智能体。

该项目围绕一个关键研究判断构建:智能体能力取决于工具编排和行动,而不仅仅是知识。这一洞见使得使用更小的模型成为可能,同时仍能以极低的成本支持广泛的智能体任务。

MagenticLite 也反映了我们如何端到端地推进智能体 AI——从训练数据和模型设计,到编排、交互设计,以及贯穿整个体验的人类监督。

Figure 1 – One experience, three components.png | A diagram titled
图 1. 一种体验,三个组成部分:MagenticLite、MagenticBrain 和 Fara1.5。

本次发布包含

MagenticLite(在新标签页中打开)

Magentic-UI 的下一代版本是我们的实验性智能体体验,由为小型模型重构的智能体框架提供支持,并配备了根据社区反馈更新的用户界面。它可在单一工作流中跨用户浏览器和本地文件系统运行。

MagenticBrain(在新标签页中打开)

MagenticBrain 集 MagenticLite 的规划器、编码器和委派器于一身。它能将模糊请求转化为具体计划,为每个步骤选择合适的工具或子智能体,在需要时编写代码,并在任务中途出现问题时进行恢复。

正文:Fara1.5

Fara1.5 是我们计算机使用模型家族的下一代产品,提供三种规模,其中旗舰版为 90 亿参数模型,适用于大多数用例。Fara1.5 在小型计算机使用模型中取得了新的最先进(SOTA)成果,并且在网页导航方面的表现几乎达到 Fara-7B 的两倍,对表单、需凭证登录的网站和长时间运行任务的处理更加精准。

每个组件本身都有用,但它们协同工作时效果最佳。对应用、模型和运行框架进行协同设计,使得在这一规模下实现强大且可靠的代理式性能成为可能。

我们的研究方法:用更少资源实现更多成果

我们从一个简单的问题出发:要让一个小模型真正擅长代理式任务,需要什么?答案贯穿了整个生命周期——数据生成、训练目标、模型设计和编排都必须协同重新设计,而不是彼此孤立地进行。

我们从真实世界用例中确定了需求,例如填写表单、进行浏览器研究以及在本地管理文件,并围绕这些需求构建了评估数据集。标准基准测试能反映部分情况,但它们并不总是对真实世界实用性的直接衡量。基于场景的评估补充了这些基准测试,并成为模型和运行框架迭代改进的关键信号,如图 2 所示。

Figure 2 – Eval flywheel.png | A flowchart titled
图 2. 构建智能体系统的迭代过程包括定义成功标准、评估性能,以及优化模型或系统设计(或两者)。然后重复这一过程。

在用户体验方面,我们保留了 Magentic-UI 的关键元素,包括对智能体推理和行动的可见性、用户直接接管控制的能力,以及在关键节点进行明确批准。基于近期的用户研究,我们还通过更新后的浏览器和聊天视图,使 MagenticLite 更易于学习和协作;这些视图旨在让用户更容易理解智能体的行动,并在需要时进行干预。如图 3 所示。

Figure 3 – MAGUI new interface.png | A screenshot of the MagenticLite 2.0.063 application interface. The left sidebar shows a session history with task names and statuses, including one active task highlighted in pink. The central panel dis
图 3. MagenticLite 的界面包括更新后的浏览器和聊天视图,旨在让用户更容易理解智能体的行动,并在需要时进行干预。

系统组件

Fara1.5:一款性能超越其参数量级的计算机使用模型

Fara1.5 是我们计算机使用模型家族的下一代产品,提供三种规模,其中旗舰级 9B 模型推荐用于大多数使用场景。Fara1.5 在小型计算机使用模型中实现了新的 SOTA 性能,并且在网页导航方面的表现几乎达到 Fara-7B 的两倍,同时在处理表单、需要凭据的网站和长时间运行任务方面表现更好。

去年 11 月,我们发布了 Fara-7B,这是一款小型智能体模型,专为在网页浏览器中完成任务而构建。它使用一种新颖的合成数据生成引擎进行训练,从而实现了同类最佳性能。Fara1.5 是这一押注的下一步:一个由三款模型(4B、9B、27B)组成的系列,基于 Qwen 3.5,旨在弥补我们在上一版本中看到的差距。

新特性

最先进的结果。在流行的 Online-Mind2Web 基准测试中(该基准包含跨常用网络领域的 300 项任务),Fara1.5 在其同等规模模型中取得了新的 SOTA 结果。Fara1.5 的表现超过所有规模相近的模型,并且几乎使 Fara-7B 的性能翻倍。更大的 Fara1.5-27B 变体在同一基准测试中的性能超过 90%。

Figure 4 – Fara-1.5 latest results.png | A bar chart titled
图 4。在 OnlineMind2Web 基准测试中,Fara‑1.5-9B 在其同等规模模型中实现了最先进的性能,并显著优于此前的模型。

改进的用户体验。除了在基准测试上的提升之外,我们还改进了 Fara1.5 的用户体验。用户应能观察到其在填写表单、处理需要凭据的网站登录以及预约等日常任务上的表现更强。这些改进由我们的 FaraGen 数据生成管线的下一步演进所驱动。除了在实时网站上进行训练之外,我们还在高度逼真的合成环境中训练了该模型,这些环境旨在模拟登录和不可逆操作等场景。

为长时间运行任务调优的原生动作空间。除点击和键盘操作之外,Fara1.5 还内置了工具,可在数百个步骤中将关键信息存储在其上下文中,并在需要时向用户请求许可或偏好,从而帮助它在跨越数分钟真实工作的任务中保持连贯。

重新校准关键点。Fara-7B 经过训练,可检测交易、登录流程或不可逆提交等活动中的关键点并进行标记。在 Fara1.5 中,我们基于实际使用中的经验,围绕关键点完善了设计,使安全触发仍会在应当发生时发生,但不会阻碍有用任务,例如填写表单。

Figure 5 – Critical point.png | A screenshot of Fara1.5's browser interface showing a live view of the LinkedIn sign-up and sign-in page, with fields for email and password visible. Below the browser panel, a section titled
图 5。Fara1.5 在检测到关键点时会暂停并请求用户介入;在此示例中,是在使用电子邮件凭据登录 LinkedIn 账户的过程中。

MagenticBrain:编排器模型

MagenticBrain 是一个 140 亿参数的编排模型——集规划器、编码器和委派器于一体。MagenticBrain 基于 Qwen 3 14B 进行微调,并在 MagenticLite harness 内进行端到端训练,使用与其在推理时将遇到的相同工具模式和执行环境。因此,它学习编排的方式与其运行方式之间不存在差距。

在许多智能体系统中,编排(规划与协调)是最依赖推理能力的组件,因此团队历来依赖其能力最强的模型来承担这一角色。我们的判断是,小模型也可以胜任这一角色,而不会牺牲能力。有两个设计选择使这一点成为可能。

第一个选择涉及将多步工具调用轨迹与编码和终端轨迹相结合:在多步工具调用轨迹中,模型学习选择正确的工具并正确调用它;而在编码和终端轨迹中,正确答案有时是五行 Python,而不是一次工具调用。这还配合了训练和推理期间所用工具格式之间的紧密耦合。

第二个选择是计算机使用智能体(CUA)委派。编排器工作中的一个关键部分,是知道何时不应自行行动,而是将任务交接给 Fara1.5。我们的数据管线包含显式委派轨迹:在这些序列中,编排器识别出浏览器或用户界面(UI)任务,向 CUA 模型发出结构化交接,等待结果,然后继续执行任务。其结果是一个编排器模型,能够在单个 14B 规模内流畅地进行推理、编写代码、调用工具和委派任务。我们正在发布 MagenticBrain,它设计用于与 MagenticLite 配合使用。

Figure 6 – MagenticBrain.png | A flow diagram illustrating MagenticBrain's role as an orchestration model. At the top, a box represents the user's natural-language request:
图 6。MagenticBrain 是一个小型编排模型,能够将自然语言请求分解为更小的步骤,选择合适的工具,在需要时编写代码,并将浏览器任务委派给 Fara1.5。

Harness:为小型模型而构建

该 harness 将编排器和浏览器使用模型整合到一个工作流中。最重要的有三项设计选择:

  • 逐步规划。该 harness 以增量方式进行规划,使系统保持灵活,并在长时间运行的任务中实现更顺畅的路线修正和恢复。
  • 主动上下文管理。小模型的有效上下文窗口更小,并且会随着上下文增长而更快退化。该框架会主动整理每个模型在每一步接收到的内容,使提示保持聚焦,只呈现必要信息,将先前交互压缩为简明摘要,并将其余内容卸载,从而使编排器和 Fara1.5 在长任务中仍能保持有效。
  • 通过子代理进行委派。该编排器并不依赖单个小模型处理所有任务,而是作为主代理,将专门工作委派给子代理。这意味着将浏览器任务交给 Fara1.5。这种模式通过让每个模型处理问题中范围更窄、更专门的部分,发挥了小语言模型的优势。它也为未来扩展奠定了基础:后续版本可以引入更多子代理,并让它们并行运行,以实现更丰富、更高效的工作流。

该框架保留了 Magentic-UI 1.0 的人类参与保障。浏览器和代码操作中的关键节点仍会暂停,以等待用户明确批准;整个系统运行在 Quicksand(在新标签页中打开)内部,这是一个为基于 QEMU 的沙箱创建的开源封装器,可将浏览器会话和代码执行与主机系统隔离。

Figure 7 – MagenticLite architecture diagram | A layered system architecture diagram for MagenticLite, organized top to bottom across four labeled sections. The topmost layer, User Interface, contains the Frontend (React SPA) with four comp
图 7. MagenticLite 架构概览。该系统采用分层架构,涵盖前端、执行框架、模型和沙盒化执行环境。

查看实际演示

MagenticLite 可以在浏览器和本地文件系统中执行广泛的任务,例如填写表单、预约、整理本地文件,以及搜索和分析信息。

MagenticLite | 填写费用报销表单演示
MagenticLite | 查找并预订餐厅演示
MagenticLite | 查找食谱食材价格演示
MagenticLite | 整理本地文件演示

试用它,并与我们一起构建

MagenticLite、MagenticBrain 和 Fara1.5 是研究版本,旨在支持持续探索和开发。我们发布它们是为了鼓励更广泛的社区进行实验、评估并提供反馈。

  • MagenticLite 是 Magentic-UI 的更新版本,可在 GitHub(在新标签页中打开)获取。
  • MagenticBrain 可在 Microsoft Foundry(在新标签页中打开)获取。
  • Fara1.5 模型可在 Microsoft Foundry(在新标签页中打开)获取。

贡献者

  • 智能体体验:Cheng Tan、Maya Murad、Weili Shi
  • 智能体框架:Adam Fourney、Tyler Payne
  • 正文:Fara1.5:Alexey Taymanov、Andrew Zhao、Aravind Rajeswaran、Corby Rosset、Hussein Mozannar、Luiz Do Valle、Spencer Whitehead、Vibhav Vineet、Zach Nussbaum、Sahil Gupta、Yadong Lu
  • 正文:MagenticBrain:Ahmed Elgohary Ghoneim、Akshay Nambi、Amir Saeidi、Caio César Teodoro Mendes、Harkirat Behl、Karan Gupta、Pashmina Cameron、Pranav Vajreshwari、Shital Shah、Yash Lara、Yash Pandya
  • 合作者:Abhishek Gowami、Amanda Swearngin、Michael Harrison、Sara Abdali、Sarthak Harne、Vidhisha Balachandran
  • 项目负责人:Ahmed Awadallah、Rafah Hosn
  • 赞助人:Ahmed Awadallah、Ece Kamar、Rafah Hosn、Saleema Amershi、Shital Shah
在新标签页中打开

原文标题

MagenticLite, MagenticBrain, Fara1.5: An agentic experience optimized for small models