中文内容

已翻译official company source英文原文2026-06-02

Back to Articles

Holo3.1：快速且本地的计算机使用智能体

团队文章发布于 2026 年 6 月 2 日

Upvote

正文：28

正文：+22

正文：Emrick Sinitambirivoutin

正文：Pierre-Louis Cedoz

移动自动化跨框架性能更小尺寸以实现成本—性能权衡面向消费级硬件上的本地代理去年 3 月，我们发布了 Holo3，这是我们最先进的计算机使用模型。采用随即开始。开发者、企业和合作伙伴开始在广泛的工作流中部署 Holo3，从浏览器自动化和商业软件，到内部工具和桌面应用。随着采用范围扩大，我们意识到，仅有性能已不再足够。

用户希望在桌面和移动环境中运行相同的计算机使用能力，并与不同的代理框架无缝集成。他们希望拥有部署灵活性，从云端推理到在终端用户设备上完全本地执行。

这就是我们发布 Holo3.1 系列的原因。Holo3.1 在生产环境中最重要的三个维度上提升了稳健性：环境（网页、桌面、移动）、代理框架和部署目标。我们首次发布了针对本地推理优化的量化检查点，包括 FP8、Q4 GGUF 和 NVFP4。

Holo3.1 是朝着我们通用计算机使用代理愿景迈出的重要一步：这类系统能够跨环境运行，集成到任何代理技术栈中，并在工作流所在的任何地方运行。

跨 GUI 环境与代理框架的计算机使用

基于 Qwen 系列，Holo3.1 旨在提升计算机使用代理在实际部署环境中的鲁棒性，同时保持最先进的性能。

随着团队将 Holo3 从评估推进到生产环境，我们反复观察到同一个挑战：在一种设置中的强劲表现不一定能迁移到另一种设置。移动设备、替代性代理框架以及不同的执行框架都会引入各自的分布偏移来源。

移动自动化

Holo3.1 将 Holo3 的能力从浏览器和桌面控制扩展到更广泛的范围，并在移动环境中带来显著提升。在 AndroidWorld 上，我们的 35B-A3B 模型从 67% 提升至 79.3%，而较小的 4B 和 9B 变体从 58% 提升至 72%。

跨测试框架性能

为了更好地支持在第三方智能体技术栈中部署 Holo 的团队，Holo3.1 在 Holo3 已有的结构化 JSON 输出之外，引入了对函数调用协议的原生支持。

在 OSWorld 以及我们涵盖电子商务、商业软件和协作工作流的内部基准测试套件中，函数调用和原生执行如今实现了接近持平的性能。Holo3.1 在我们的 Holotab 产品测试框架中评估时，相比 Holo3 也实现了超过 25% 的提升。

更小尺寸，以实现成本与性能的权衡

为进一步支持本地和端侧推理，除了用于实现最先进性能的更大规模 35B-A3B 模型外，我们还发布了新的模型尺寸，包括小型模型（0.8B、4B 和 9B），用于经济高效且私密的部署。

Holo3.1 和 Qwen 3.5 系列的性能与成本对比。总体性能首先对四个 H Corporate 基准取平均值（因此每个系列的权重相同），然后再对 OSWorld、AndroidWorld、H Corporate、ScreenSpot-Pro 和 OSWorld-G 取平均值。

快速且本地的推理

这是我们首次发布量化权重。我们从 35B-A3B 检查点开始，提供 FP8、Q4 GGUF 和 NVFP4 版本。

对于 NVFP4，我们使用了 NVIDIA 的 Model Optimizer，并采用 W4A16 配置。这些检查点可为 Computer Use Agents 实现快速本地推理，同时模型性能几乎没有下降。FP8 和 NVFP4 达到了相同的 OSWorld 分数，仅比全精度 BF16 检查点低约两分。

速度提升非常显著：在 DGX Spark 上，NVFP4 W4A16 的总 token 吞吐量达到 FP8 的 1.41 倍、BF16 的 1.74 倍。