元鉴
返回中文阅读流

Hugging Face Blog

Holo3.1:快速且本地的计算机使用智能体

来自 Hugging Face Blog 的最新公开更新。

中文内容

已翻译official company source英文原文2026-06-02

Holo3.1:快速且本地的计算机使用智能体

团队 文章 发布于 2026 年 6 月 2 日

移动自动化 跨框架性能 更小尺寸以实现成本—性能权衡 面向消费级硬件上的本地代理 去年 3 月,我们发布了 Holo3,这是我们最先进的计算机使用模型。采用随即开始。开发者、企业和合作伙伴开始在广泛的工作流中部署 Holo3,从浏览器自动化和商业软件,到内部工具和桌面应用。随着采用范围扩大,我们意识到,仅有性能已不再足够。

用户希望在桌面和移动环境中运行相同的计算机使用能力,并与不同的代理框架无缝集成。他们希望拥有部署灵活性,从云端推理到在终端用户设备上完全本地执行。

这就是我们发布 Holo3.1 系列的原因。Holo3.1 在生产环境中最重要的三个维度上提升了稳健性:环境(网页、桌面、移动)、代理框架和部署目标。我们首次发布了针对本地推理优化的量化检查点,包括 FP8、Q4 GGUF 和 NVFP4。

Holo3.1 是朝着我们通用计算机使用代理愿景迈出的重要一步:这类系统能够跨环境运行,集成到任何代理技术栈中,并在工作流所在的任何地方运行。

跨 GUI 环境与代理框架的计算机使用

基于 Qwen 系列,Holo3.1 旨在提升计算机使用代理在实际部署环境中的鲁棒性,同时保持最先进的性能。

随着团队将 Holo3 从评估推进到生产环境,我们反复观察到同一个挑战:在一种设置中的强劲表现不一定能迁移到另一种设置。移动设备、替代性代理框架以及不同的执行框架都会引入各自的分布偏移来源。

Capture d’écran 2026-06-01 à 16.30.52

移动自动化

Holo3.1 将 Holo3 的能力从浏览器和桌面控制扩展到更广泛的范围,并在移动环境中带来显著提升。在 AndroidWorld 上,我们的 35B-A3B 模型从 67% 提升至 79.3%,而较小的 4B 和 9B 变体从 58% 提升至 72%。

跨测试框架性能

为了更好地支持在第三方智能体技术栈中部署 Holo 的团队,Holo3.1 在 Holo3 已有的结构化 JSON 输出之外,引入了对函数调用协议的原生支持。

在 OSWorld 以及我们涵盖电子商务、商业软件和协作工作流的内部基准测试套件中,函数调用和原生执行如今实现了接近持平的性能。Holo3.1 在我们的 Holotab 产品测试框架中评估时,相比 Holo3 也实现了超过 25% 的提升。

更小尺寸,以实现成本与性能的权衡

为进一步支持本地和端侧推理,除了用于实现最先进性能的更大规模 35B-A3B 模型外,我们还发布了新的模型尺寸,包括小型模型(0.8B、4B 和 9B),用于经济高效且私密的部署。

Capture d’écran 2026-06-01 à 16.21.18

overall_pareto_light_notitle

Holo3.1 和 Qwen 3.5 系列的性能与成本对比。总体性能首先对四个 H Corporate 基准取平均值(因此每个系列的权重相同),然后再对 OSWorld、AndroidWorld、H Corporate、ScreenSpot-Pro 和 OSWorld-G 取平均值。

快速且本地的推理

这是我们首次发布量化权重。我们从 35B-A3B 检查点开始,提供 FP8、Q4 GGUF 和 NVFP4 版本。

对于 NVFP4,我们使用了 NVIDIA 的 Model Optimizer,并采用 W4A16 配置。这些检查点可为 Computer Use Agents 实现快速本地推理,同时模型性能几乎没有下降。FP8 和 NVFP4 达到了相同的 OSWorld 分数,仅比全精度 BF16 检查点低约两分。

速度提升非常显著:在 DGX Spark 上,NVFP4 W4A16 的总 token 吞吐量达到 FP8 的 1.41 倍、BF16 的 1.74 倍。

面向消费级硬件上的本地智能体

我们还发布了 Q4 GGUF 检查点,旨在用于在消费级硬件上本地部署 Computer Use Agents。

代理本身在 Windows 或 Mac 机器上本地运行,而模型既可以在同一台机器上运行——我们提供了 Apple Silicon 的参考数据——也可以在同一网络中的 DGX Spark 上运行。在这两种情况下,执行都保持完全私密和本地化,不会有任何内容离开用户的网络。

在 Spark 上,我们与 NVIDIA 共同开发的代理框架优化结合上述 NVFP4 量化,相较于 FP8 基线带来了约 2× 的端到端综合加速,将平均步骤时间从 6.8 秒缩短到 3.3 秒。

agent_request_rate_light

跨平台和精度的代理请求率。在 DGX Spark 上,采用 NVFP4 的 vLLM 在 Default 和 Fast 模式下均实现了最高请求率,其次是 Q4 GGUF 和 FP8。这些改进及更多内容将纳入即将推出的桌面代理框架。

可用性

Holo3.1 系列提供四种规模:

模型 部署目标 Holo3.1-0.8B 超轻量级本地智能体 Holo3.1-4B 高性价比部署 Holo3.1-9B 性能与延迟均衡 Holo3.1-35B-A3B 最先进性能

我们还发布了经过优化的 FP8、NVFP4 和 Q4 GGUF 检查点,用于本地和边缘部署。

开始使用

  • 正文:Holo Models API:https://hcompany.ai/holo-models-api
  • 正文:Hugging Face:https://huggingface.co/collections/Hcompany/holo31

我们期待看到开发者们用 Holo3.1 构建出什么。

社区

原文标题

Holo3.1: Fast & Local Computer Use Agents