元鉴
返回中文阅读流

NVIDIA Developer Blog

MiniMax M2.7 在 NVIDIA 平台上推进面向复杂 AI 应用的可扩展智能体工作流

MiniMax M2.7 发布,为面向智能体框架等场景的 MiniMax M2.5 模型带来增强。

中文内容

已翻译official company source英文原文2026-05-26

MiniMax M2.7 的发布为广受欢迎的 MiniMax M2.5 模型带来了增强。该模型面向智能体框架,以及推理、ML 研究工作流、软件、工程和办公等领域的其他复杂用例而构建。MiniMax M2.7 的开放权重版本现已可通过 NVIDIA 以及整个开源推理生态系统获取。

MiniMax M2 系列是一个稀疏混合专家(MoE)模型家族,旨在兼顾效率与能力。MoE 设计在保持 230B 参数模型完整容量的同时,将推理成本维持在较低水平。它使用多头因果自注意力,并结合 Rotary Position Embeddings(RoPE)和 Query-Key Root Mean Square Normalization(QK RMSNorm),以实现大规模稳定训练。top-k 专家路由机制确保对于任意给定输入,只激活最相关的专家,从而在模型总参数量很大的情况下仍保持较低的推理成本。其结果是一种针对编程挑战和复杂智能体任务进行优化的架构。

MiniMax M2.7 Modalities Language Total parameters 230B Active parameters 10B Activation rate 4.3% Input context length 200K Additional configuration information Experts 256 local experts Experts activated per token 8 Layers 62 
表 1。MiniMax M2.7:文本 MoE 模型,拥有 230B 参数、每个 token 激活 10B 参数、256 个专家和 200K 上下文长度

使用 NVIDIA NemoClaw 构建长时间运行的智能体

NVIDIA NemoClaw 是一个开源参考栈,可通过单条命令更安全地简化 OpenClaw 常驻助手的运行。它会安装 NVIDIA OpenShell 运行时,这是一个用于运行带有端点或 M2.7 等开放模型的自主智能体的安全环境。开发者现在即可使用这个一键启动工具,在 NVIDIA Brev 云 AI GPU 平台上配置包含 OpenClaw 和 OpenShell 的环境。

视频 1。使用 NVIDIA NemoClaw 在云端点上运行 MiniMax M2.7 的分步演示

使用开源框架进行推理优化

为最大化 MiniMax M2 系列模型的性能,NVIDIA 与开源社区合作,将高性能内核集成到 vLLM 和 SGLang 中。这些优化专门针对大规模 MoE 模型的架构需求:

  • QK RMS Norm Kernel:该优化将计算和通信操作融合到单个内核中,以同时对 query 和 key 进行归一化。该内核能够更好地重叠计算与通信,减少内核启动以及内存读写开销,并提升推理性能。
  • FP8 MoE:集成 NVIDIA TensorRT-LLM FP8 MoE 模块化内核。该经过良好优化的内核专门面向 MoE 模型,可提升整体端到端性能。

以下是在使用 1K/1K ISL/OSL 数据集的 NVIDIA Blackwell Ultra GPU 配置上获得的 vLLM 结果。这两项优化在 1 个月内使吞吐量最高提升 2.5 倍。

Figure shows throughput vs interactivity Pareto chart for MiniMax M2 series of models with vLLM and highlights a 2.5x improvement in throughput achieved in one month.Figure shows throughput vs interactivity Pareto chart for MiniMax M2 series of models with vLLM and highlights a 2.5x improvement in throughput achieved in one month.
图 1。MiniMax M2 系列在 vLLM 下的吞吐量-交互性 Pareto 曲线

图 2 展示了在使用 1K/1K ISL/OSL 数据集的 NVIDIA Blackwell Ultra GPU 上获得的 SGLang 结果。这两项优化在 1 个月内使吞吐量最高提升 2.7 倍。

Figure shows a throughput vs interactivity Pareto chart for MiniMax M2 series of models with SGLang and highlights a 2.7x improvement in throughput achieved in one month.Figure shows a throughput vs interactivity Pareto chart for MiniMax M2 series of models with SGLang and highlights a 2.7x improvement in throughput achieved in one month.
图 2。MiniMax M2 系列在 SGLang 下的吞吐量-交互性 Pareto 曲线

使用 vLLM 部署

使用 vLLM 服务框架部署模型时,请遵循以下说明。更多信息请参阅 vLLM 指南。

$ vllm serve MiniMaxAI/MiniMax-M2.7 \ 
     --tensor-parallel-size 4 \ 
     --tool-call-parser minimax_m2 \ 
     --reasoning-parser minimax_m2_append_think \ 
     --enable-auto-tool-choice \  
     --trust-remote-code \ 
     --enable-expert-parallel 

使用 SGLang 部署

使用 SGLang 服务框架部署模型的用户可遵循以下说明。更多信息和配置选项请参阅 SGLang 文档。

$ sglang serve \ 
    --model-path MiniMaxAI/MiniMax-M2.7 \ 
    --tp-size 4 \ 
    --trust-remote-code \ 
    --disable-radix-cache \ 
    --max-running-requests 512 \ 
    --mem-fraction-static 0.85 \ 
    --cuda-graph-max-bs 512 \ 
    --kv-cache-dtype fp8_e4m3 \ 
    --quantization fp8 \ 
    --stream-interval 10 \ 
    --reasoning-parser=minimax-append-think \ 
    --dtype bfloat16 \ 
    --moe-runner-backend flashinfer_trtllm_routed \ 
    --fp8-gemm-backend flashinfer_trtllm \ 
    --enable-flashinfer-allreduce-fusion \ 
    --scheduler-recv-interval 10 

使用 NVIDIA 端点构建

通过托管在 NVIDIA GPU 上的免费 GPU 加速端点,开始使用 MiniMax M2.7 进行构建。可在 build.nvidia.com 上通过浏览器快速测试提示词,并使用自己的数据评估性能。借助 NVIDIA NIM 扩展到生产环境——这是优化的容器化推理微服务,可在本地、云端或混合环境中部署。

使用 NVIDIA NeMo Framework 进行后训练

要微调 MiniMax M2.7,可使用开源 NVIDIA NeMo AutoModel 库,它是 NVIDIA NeMo Framework 的一部分,并结合 Hugging Face 上可用的最新检查点的 M2.7 配方和文档。用户可以使用自选数据和 NeMo RL 库,对 MiniMax M2.7 执行强化学习,并参考示例配方(8k 序列、16k 序列)以及准确率验证曲线。

开始使用 MiniMax M2.7

从基于 NVIDIA Blackwell 的数据中心部署,到全托管企业级 NVIDIA NIM 微服务,再到微调,NVIDIA 为集成 MiniMax M2.7 提供解决方案。要开始使用,请查看 Hugging Face 或 build.nvidia.com 上的 MiniMax M2.7 页面。

Like

标签

原文标题

MiniMax M2.7 Advances Scalable Agentic Workflows on NVIDIA Platforms for Complex AI Applications