元鉴
返回中文阅读流

Hugging Face Blog

JetBrains 推出 Mellum2:一款 12B 参数的混合专家模型

来自 Hugging Face Blog 的最新公开更新。

中文内容

已翻译official company source英文原文2026-06-01

JetBrains 推出 Mellum2:一款 12B 参数的混合专家模型

团队 文章 发布于 2026 年 6 月 1 日

基准测试亮点 主要用例 路由与编排 RAG 流水线 子代理 私有部署 为什么范围明确的模型很重要 Mellum2 入门

  • Mellum2 是一款从零开始在自然语言和代码上训练的 12B 参数 Mixture-of-Experts 模型。
  • 该模型每个 token 仅激活 2.5B 参数,使其适合高吞吐、低延迟推理。Mellum2 可用于路由、RAG、摘要、子代理、高吞吐编码功能和私有部署。
  • 它以 Apache 2.0 许可证发布。
  • 与相近规模的模型相比,Mellum2 在基准测试中表现具有竞争力,同时推理速度提升超过 2 倍。
  • 在 Hugging Face 下载模型:https://huggingface.co/collections/JetBrains/mellum-2
  • 有关架构细节、训练设置、基准测试和评估方法,请阅读完整技术报告:https://arxiv.org/pdf/2605.31268

今天,我们发布 Mellum2,这是一款开放的 Mixture-of-Experts 模型,针对低延迟文本与代码工作负载进行了优化。Mellum 最初是作为代码补全模型起步的。通过 Mellum2,我们将这一基础扩展到更广泛的自然语言和软件工程任务,同时保持模型专注于高效推理和可部署性。现代 AI 系统越来越依赖多次模型调用:路由、检索、摘要、规划、验证和工具使用。其中许多操作对延迟敏感,并不需要可用的最大模型。Mellum2 面向这些工作负载。

基准测试亮点

Mellum 2 Evals

在我们的技术报告中,我们在代码生成、推理、科学和数学基准上评估了 Mellum2。Mellum2 与相近规模的开放模型相比具有竞争力,同时推理速度超过 2 倍,适合高吞吐生产工作负载。模型架构 Mellum2 是一款 Mixture-of-Experts 模型:

模型 总参数 每个 token 激活参数 模态 许可证 Mellum2 12B 2.5B 文本和代码 Apache 2.0

MoE 架构在保持总模型容量较高的同时,每个 token 仅激活一部分参数。这使推理更高效,并有助于降低实时工作负载的服务成本。Mellum2 有意聚焦于文本和代码,而不是多模态任务。这种专门化使模型在软件工程工作负载中保持紧凑且高效。

主要用例

路由与编排

Mellum2 适合作为多模型系统中的轻量级路由与编排模型,包括提示分类、工具选择和中间控制流步骤。

RAG 流水线

该模型非常适合对延迟敏感的检索流水线,包括上下文压缩、摘要和检索后处理。

子代理

Mellum2 可用于代理子任务,例如规划、验证、转换和上下文准备,从而减少在中间操作中调用更大模型的需求。

私有部署

由于 Mellum2 是开放的且易于高效服务,因此可部署在涉及专有代码或内部数据的自托管环境中。

为什么范围明确的模型很重要

随着 AI 系统日趋成熟,最有效的架构正变得不那么单体化。单个前沿模型可以很强大,但生产系统通常需要多个专门组件协同工作:检索器、路由器、具备代码感知能力的模型、验证器、工具调用器以及更大的推理模型。我们将 Mellum2 视为一种“焦点”模型:一种快速、范围明确、针对大型 AI 系统内部高频任务优化的模型。目标不是替换技术栈中的每一个模型。目标是让技术栈更快、更便宜且更易控制。

Mellum2 入门

如果你正在构建面向软件工程的 AI 系统——无论是在 IDE 内、RAG 流水线中、作为代理工作流的一部分,还是在私有基础设施上——Mellum2 已可试用。

社区

编辑预览
Upload images, audio, and videos by dragging in the text input, pasting, or 点击此处.
点击或粘贴此处以上传图片
Comment

· 注册或登录以评论

原文标题

Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains