中文内容
JetBrains 推出 Mellum2:一款 12B 参数的混合专家模型
基准测试亮点 主要用例 路由与编排 RAG 流水线 子代理 私有部署 为什么范围明确的模型很重要 Mellum2 入门
- Mellum2 是一款从零开始在自然语言和代码上训练的 12B 参数 Mixture-of-Experts 模型。
- 该模型每个 token 仅激活 2.5B 参数,使其适合高吞吐、低延迟推理。Mellum2 可用于路由、RAG、摘要、子代理、高吞吐编码功能和私有部署。
- 它以 Apache 2.0 许可证发布。
- 与相近规模的模型相比,Mellum2 在基准测试中表现具有竞争力,同时推理速度提升超过 2 倍。
- 在 Hugging Face 下载模型:https://huggingface.co/collections/JetBrains/mellum-2
- 有关架构细节、训练设置、基准测试和评估方法,请阅读完整技术报告:https://arxiv.org/pdf/2605.31268
今天,我们发布 Mellum2,这是一款开放的 Mixture-of-Experts 模型,针对低延迟文本与代码工作负载进行了优化。Mellum 最初是作为代码补全模型起步的。通过 Mellum2,我们将这一基础扩展到更广泛的自然语言和软件工程任务,同时保持模型专注于高效推理和可部署性。现代 AI 系统越来越依赖多次模型调用:路由、检索、摘要、规划、验证和工具使用。其中许多操作对延迟敏感,并不需要可用的最大模型。Mellum2 面向这些工作负载。
基准测试亮点
在我们的技术报告中,我们在代码生成、推理、科学和数学基准上评估了 Mellum2。Mellum2 与相近规模的开放模型相比具有竞争力,同时推理速度超过 2 倍,适合高吞吐生产工作负载。模型架构 Mellum2 是一款 Mixture-of-Experts 模型:
MoE 架构在保持总模型容量较高的同时,每个 token 仅激活一部分参数。这使推理更高效,并有助于降低实时工作负载的服务成本。Mellum2 有意聚焦于文本和代码,而不是多模态任务。这种专门化使模型在软件工程工作负载中保持紧凑且高效。
主要用例
路由与编排
Mellum2 适合作为多模型系统中的轻量级路由与编排模型,包括提示分类、工具选择和中间控制流步骤。
RAG 流水线
该模型非常适合对延迟敏感的检索流水线,包括上下文压缩、摘要和检索后处理。
子代理
Mellum2 可用于代理子任务,例如规划、验证、转换和上下文准备,从而减少在中间操作中调用更大模型的需求。
私有部署
由于 Mellum2 是开放的且易于高效服务,因此可部署在涉及专有代码或内部数据的自托管环境中。
为什么范围明确的模型很重要
随着 AI 系统日趋成熟,最有效的架构正变得不那么单体化。单个前沿模型可以很强大,但生产系统通常需要多个专门组件协同工作:检索器、路由器、具备代码感知能力的模型、验证器、工具调用器以及更大的推理模型。我们将 Mellum2 视为一种“焦点”模型:一种快速、范围明确、针对大型 AI 系统内部高频任务优化的模型。目标不是替换技术栈中的每一个模型。目标是让技术栈更快、更便宜且更易控制。
Mellum2 入门
如果你正在构建面向软件工程的 AI 系统——无论是在 IDE 内、RAG 流水线中、作为代理工作流的一部分,还是在私有基础设施上——Mellum2 已可试用。
社区
· 注册或登录以评论

