元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-21

概览

MagenticLite 是一款智能体应用，可在单一工作流中同时跨浏览器和本地文件系统运行。作为 Magentic-UI 的下一代产品，它将重新设计的应用与针对小模型优化的运行框架相结合。
MagenticBrain 和 Fara1.5 是分别面向编排任务和计算机使用任务设计的小模型。Fara1.5 是 Fara 的下一代版本，在真实世界的浏览器任务中实现了可衡量的提升。
这些发布共同探索了通过更小的模型、协同设计的工具以及优化的执行框架，智能体性能究竟能够被推进到何种程度。

今天，Microsoft Research AI Frontiers 发布了 MagenticLite（在新标签页中打开），这是一款为小型模型设计的实验性智能体应用。作为 Magentic-UI 的下一代产品，它可在单一工作流中跨浏览器和本地文件系统运行。

MagenticLite 由两个专门构建的模型驱动：MagenticBrain，用于推理、委派和终端使用；以及 Fara1.5，一个用于基于浏览器任务的计算机使用模型家族。这三个组件被设计为作为一个单一系统协同工作。其结果是一个运行高效、将数据保留在用户机器上，并支持广泛智能体任务的智能体。它还指向一个更广泛的目标：能够直接在用户硬件上运行的高能力智能体。

该项目围绕一个关键研究判断构建：智能体能力取决于工具编排和行动，而不仅仅是知识。这一洞见使得使用更小的模型成为可能，同时仍能以极低的成本支持广泛的智能体任务。

MagenticLite 也反映了我们如何端到端地推进智能体 AI——从训练数据和模型设计，到编排、交互设计，以及贯穿整个体验的人类监督。

Figure 1 – One experience, three components.png | A diagram titled — 图 1. 一种体验，三个组成部分：MagenticLite、MagenticBrain 和 Fara1.5。

本次发布包含

MagenticLite（在新标签页中打开）

Magentic-UI 的下一代版本是我们的实验性智能体体验，由为小型模型重构的智能体框架提供支持，并配备了根据社区反馈更新的用户界面。它可在单一工作流中跨用户浏览器和本地文件系统运行。

MagenticBrain（在新标签页中打开）

MagenticBrain 集 MagenticLite 的规划器、编码器和委派器于一身。它能将模糊请求转化为具体计划，为每个步骤选择合适的工具或子智能体，在需要时编写代码，并在任务中途出现问题时进行恢复。

正文：Fara1.5

Fara1.5 是我们计算机使用模型家族的下一代产品，提供三种规模，其中旗舰版为 90 亿参数模型，适用于大多数用例。Fara1.5 在小型计算机使用模型中取得了新的最先进（SOTA）成果，并且在网页导航方面的表现几乎达到 Fara-7B 的两倍，对表单、需凭证登录的网站和长时间运行任务的处理更加精准。

每个组件本身都有用，但它们协同工作时效果最佳。对应用、模型和运行框架进行协同设计，使得在这一规模下实现强大且可靠的代理式性能成为可能。

我们的研究方法：用更少资源实现更多成果

我们从一个简单的问题出发：要让一个小模型真正擅长代理式任务，需要什么？答案贯穿了整个生命周期——数据生成、训练目标、模型设计和编排都必须协同重新设计，而不是彼此孤立地进行。

我们从真实世界用例中确定了需求，例如填写表单、进行浏览器研究以及在本地管理文件，并围绕这些需求构建了评估数据集。标准基准测试能反映部分情况，但它们并不总是对真实世界实用性的直接衡量。基于场景的评估补充了这些基准测试，并成为模型和运行框架迭代改进的关键信号，如图 2 所示。

Figure 2 – Eval flywheel.png | A flowchart titled — 图 2. 构建智能体系统的迭代过程包括定义成功标准、评估性能，以及优化模型或系统设计（或两者）。然后重复这一过程。

在用户体验方面，我们保留了 Magentic-UI 的关键元素，包括对智能体推理和行动的可见性、用户直接接管控制的能力，以及在关键节点进行明确批准。基于近期的用户研究，我们还通过更新后的浏览器和聊天视图，使 MagenticLite 更易于学习和协作；这些视图旨在让用户更容易理解智能体的行动，并在需要时进行干预。如图 3 所示。

Figure 3 – MAGUI new interface.png | A screenshot of the MagenticLite 2.0.063 application interface. The left sidebar shows a session history with task names and statuses, including one active task highlighted in pink. The central panel dis — 图 3. MagenticLite 的界面包括更新后的浏览器和聊天视图，旨在让用户更容易理解智能体的行动，并在需要时进行干预。

系统组件

Fara1.5：一款性能超越其参数量级的计算机使用模型

Fara1.5 是我们计算机使用模型家族的下一代产品，提供三种规模，其中旗舰级 9B 模型推荐用于大多数使用场景。Fara1.5 在小型计算机使用模型中实现了新的 SOTA 性能，并且在网页导航方面的表现几乎达到 Fara-7B 的两倍，同时在处理表单、需要凭据的网站和长时间运行任务方面表现更好。

去年 11 月，我们发布了 Fara-7B，这是一款小型智能体模型，专为在网页浏览器中完成任务而构建。它使用一种新颖的合成数据生成引擎进行训练，从而实现了同类最佳性能。Fara1.5 是这一押注的下一步：一个由三款模型（4B、9B、27B）组成的系列，基于 Qwen 3.5，旨在弥补我们在上一版本中看到的差距。

新特性

最先进的结果。在流行的 Online-Mind2Web 基准测试中（该基准包含跨常用网络领域的 300 项任务），Fara1.5 在其同等规模模型中取得了新的 SOTA 结果。Fara1.5 的表现超过所有规模相近的模型，并且几乎使 Fara-7B 的性能翻倍。更大的 Fara1.5-27B 变体在同一基准测试中的性能超过 90%。

Figure 4 – Fara-1.5 latest results.png | A bar chart titled — 图 4。在 OnlineMind2Web 基准测试中，Fara‑1.5-9B 在其同等规模模型中实现了最先进的性能，并显著优于此前的模型。

改进的用户体验。除了在基准测试上的提升之外，我们还改进了 Fara1.5 的用户体验。用户应能观察到其在填写表单、处理需要凭据的网站登录以及预约等日常任务上的表现更强。这些改进由我们的 FaraGen 数据生成管线的下一步演进所驱动。除了在实时网站上进行训练之外，我们还在高度逼真的合成环境中训练了该模型，这些环境旨在模拟登录和不可逆操作等场景。

为长时间运行任务调优的原生动作空间。除点击和键盘操作之外，Fara1.5 还内置了工具，可在数百个步骤中将关键信息存储在其上下文中，并在需要时向用户请求许可或偏好，从而帮助它在跨越数分钟真实工作的任务中保持连贯。

重新校准关键点。Fara-7B 经过训练，可检测交易、登录流程或不可逆提交等活动中的关键点并进行标记。在 Fara1.5 中，我们基于实际使用中的经验，围绕关键点完善了设计，使安全触发仍会在应当发生时发生，但不会阻碍有用任务，例如填写表单。

MagenticBrain：编排器模型

MagenticBrain 是一个 140 亿参数的编排模型——集规划器、编码器和委派器于一体。MagenticBrain 基于 Qwen 3 14B 进行微调，并在 MagenticLite harness 内进行端到端训练，使用与其在推理时将遇到的相同工具模式和执行环境。因此，它学习编排的方式与其运行方式之间不存在差距。

在许多智能体系统中，编排（规划与协调）是最依赖推理能力的组件，因此团队历来依赖其能力最强的模型来承担这一角色。我们的判断是，小模型也可以胜任这一角色，而不会牺牲能力。有两个设计选择使这一点成为可能。

第一个选择涉及将多步工具调用轨迹与编码和终端轨迹相结合：在多步工具调用轨迹中，模型学习选择正确的工具并正确调用它；而在编码和终端轨迹中，正确答案有时是五行 Python，而不是一次工具调用。这还配合了训练和推理期间所用工具格式之间的紧密耦合。

第二个选择是计算机使用智能体（CUA）委派。编排器工作中的一个关键部分，是知道何时不应自行行动，而是将任务交接给 Fara1.5。我们的数据管线包含显式委派轨迹：在这些序列中，编排器识别出浏览器或用户界面（UI）任务，向 CUA 模型发出结构化交接，等待结果，然后继续执行任务。其结果是一个编排器模型，能够在单个 14B 规模内流畅地进行推理、编写代码、调用工具和委派任务。我们正在发布 MagenticBrain，它设计用于与 MagenticLite 配合使用。

Figure 6 – MagenticBrain.png | A flow diagram illustrating MagenticBrain's role as an orchestration model. At the top, a box represents the user's natural-language request: — 图 6。MagenticBrain 是一个小型编排模型，能够将自然语言请求分解为更小的步骤，选择合适的工具，在需要时编写代码，并将浏览器任务委派给 Fara1.5。

Harness：为小型模型而构建

该 harness 将编排器和浏览器使用模型整合到一个工作流中。最重要的有三项设计选择：

逐步规划。该 harness 以增量方式进行规划，使系统保持灵活，并在长时间运行的任务中实现更顺畅的路线修正和恢复。
主动上下文管理。小模型的有效上下文窗口更小，并且会随着上下文增长而更快退化。该框架会主动整理每个模型在每一步接收到的内容，使提示保持聚焦，只呈现必要信息，将先前交互压缩为简明摘要，并将其余内容卸载，从而使编排器和 Fara1.5 在长任务中仍能保持有效。
通过子代理进行委派。该编排器并不依赖单个小模型处理所有任务，而是作为主代理，将专门工作委派给子代理。这意味着将浏览器任务交给 Fara1.5。这种模式通过让每个模型处理问题中范围更窄、更专门的部分，发挥了小语言模型的优势。它也为未来扩展奠定了基础：后续版本可以引入更多子代理，并让它们并行运行，以实现更丰富、更高效的工作流。

该框架保留了 Magentic-UI 1.0 的人类参与保障。浏览器和代码操作中的关键节点仍会暂停，以等待用户明确批准；整个系统运行在 Quicksand（在新标签页中打开）内部，这是一个为基于 QEMU 的沙箱创建的开源封装器，可将浏览器会话和代码执行与主机系统隔离。

Figure 7 – MagenticLite architecture diagram | A layered system architecture diagram for MagenticLite, organized top to bottom across four labeled sections. The topmost layer, User Interface, contains the Frontend (React SPA) with four comp — 图 7. MagenticLite 架构概览。该系统采用分层架构，涵盖前端、执行框架、模型和沙盒化执行环境。

查看实际演示

MagenticLite 可以在浏览器和本地文件系统中执行广泛的任务，例如填写表单、预约、整理本地文件，以及搜索和分析信息。

MagenticLite | 填写费用报销表单演示

MagenticLite | 查找并预订餐厅演示

MagenticLite | 查找食谱食材价格演示

MagenticLite | 整理本地文件演示

试用它，并与我们一起构建

MagenticLite、MagenticBrain 和 Fara1.5 是研究版本，旨在支持持续探索和开发。我们发布它们是为了鼓励更广泛的社区进行实验、评估并提供反馈。

MagenticLite 是 Magentic-UI 的更新版本，可在 GitHub（在新标签页中打开）获取。
MagenticBrain 可在 Microsoft Foundry（在新标签页中打开）获取。
Fara1.5 模型可在 Microsoft Foundry（在新标签页中打开）获取。

贡献者

智能体体验：Cheng Tan、Maya Murad、Weili Shi
智能体框架：Adam Fourney、Tyler Payne
正文：Fara1.5：Alexey Taymanov、Andrew Zhao、Aravind Rajeswaran、Corby Rosset、Hussein Mozannar、Luiz Do Valle、Spencer Whitehead、Vibhav Vineet、Zach Nussbaum、Sahil Gupta、Yadong Lu
正文：MagenticBrain：Ahmed Elgohary Ghoneim、Akshay Nambi、Amir Saeidi、Caio César Teodoro Mendes、Harkirat Behl、Karan Gupta、Pashmina Cameron、Pranav Vajreshwari、Shital Shah、Yash Lara、Yash Pandya
合作者：Abhishek Gowami、Amanda Swearngin、Michael Harrison、Sara Abdali、Sarthak Harne、Vidhisha Balachandran
项目负责人：Ahmed Awadallah、Rafah Hosn
赞助人：Ahmed Awadallah、Ece Kamar、Rafah Hosn、Saleema Amershi、Shital Shah

在新标签页中打开

MagenticLite, MagenticBrain, Fara1.5：针对小模型优化的代理体验