中文内容
MiniMax M2.7 的发布为广受欢迎的 MiniMax M2.5 模型带来了增强。该模型面向智能体框架,以及推理、ML 研究工作流、软件、工程和办公等领域的其他复杂用例而构建。MiniMax M2.7 的开放权重版本现已可通过 NVIDIA 以及整个开源推理生态系统获取。
MiniMax M2 系列是一个稀疏混合专家(MoE)模型家族,旨在兼顾效率与能力。MoE 设计在保持 230B 参数模型完整容量的同时,将推理成本维持在较低水平。它使用多头因果自注意力,并结合 Rotary Position Embeddings(RoPE)和 Query-Key Root Mean Square Normalization(QK RMSNorm),以实现大规模稳定训练。top-k 专家路由机制确保对于任意给定输入,只激活最相关的专家,从而在模型总参数量很大的情况下仍保持较低的推理成本。其结果是一种针对编程挑战和复杂智能体任务进行优化的架构。
使用 NVIDIA NemoClaw 构建长时间运行的智能体
NVIDIA NemoClaw 是一个开源参考栈,可通过单条命令更安全地简化 OpenClaw 常驻助手的运行。它会安装 NVIDIA OpenShell 运行时,这是一个用于运行带有端点或 M2.7 等开放模型的自主智能体的安全环境。开发者现在即可使用这个一键启动工具,在 NVIDIA Brev 云 AI GPU 平台上配置包含 OpenClaw 和 OpenShell 的环境。
使用开源框架进行推理优化
为最大化 MiniMax M2 系列模型的性能,NVIDIA 与开源社区合作,将高性能内核集成到 vLLM 和 SGLang 中。这些优化专门针对大规模 MoE 模型的架构需求:
- QK RMS Norm Kernel:该优化将计算和通信操作融合到单个内核中,以同时对 query 和 key 进行归一化。该内核能够更好地重叠计算与通信,减少内核启动以及内存读写开销,并提升推理性能。
- FP8 MoE:集成 NVIDIA TensorRT-LLM FP8 MoE 模块化内核。该经过良好优化的内核专门面向 MoE 模型,可提升整体端到端性能。
以下是在使用 1K/1K ISL/OSL 数据集的 NVIDIA Blackwell Ultra GPU 配置上获得的 vLLM 结果。这两项优化在 1 个月内使吞吐量最高提升 2.5 倍。

图 2 展示了在使用 1K/1K ISL/OSL 数据集的 NVIDIA Blackwell Ultra GPU 上获得的 SGLang 结果。这两项优化在 1 个月内使吞吐量最高提升 2.7 倍。

使用 vLLM 部署
使用 vLLM 服务框架部署模型时,请遵循以下说明。更多信息请参阅 vLLM 指南。
$ vllm serve MiniMaxAI/MiniMax-M2.7 \
--tensor-parallel-size 4 \
--tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2_append_think \
--enable-auto-tool-choice \
--trust-remote-code \
--enable-expert-parallel
使用 SGLang 部署
使用 SGLang 服务框架部署模型的用户可遵循以下说明。更多信息和配置选项请参阅 SGLang 文档。
$ sglang serve \
--model-path MiniMaxAI/MiniMax-M2.7 \
--tp-size 4 \
--trust-remote-code \
--disable-radix-cache \
--max-running-requests 512 \
--mem-fraction-static 0.85 \
--cuda-graph-max-bs 512 \
--kv-cache-dtype fp8_e4m3 \
--quantization fp8 \
--stream-interval 10 \
--reasoning-parser=minimax-append-think \
--dtype bfloat16 \
--moe-runner-backend flashinfer_trtllm_routed \
--fp8-gemm-backend flashinfer_trtllm \
--enable-flashinfer-allreduce-fusion \
--scheduler-recv-interval 10
使用 NVIDIA 端点构建
通过托管在 NVIDIA GPU 上的免费 GPU 加速端点,开始使用 MiniMax M2.7 进行构建。可在 build.nvidia.com 上通过浏览器快速测试提示词,并使用自己的数据评估性能。借助 NVIDIA NIM 扩展到生产环境——这是优化的容器化推理微服务,可在本地、云端或混合环境中部署。
使用 NVIDIA NeMo Framework 进行后训练
要微调 MiniMax M2.7,可使用开源 NVIDIA NeMo AutoModel 库,它是 NVIDIA NeMo Framework 的一部分,并结合 Hugging Face 上可用的最新检查点的 M2.7 配方和文档。用户可以使用自选数据和 NeMo RL 库,对 MiniMax M2.7 执行强化学习,并参考示例配方(8k 序列、16k 序列)以及准确率验证曲线。
开始使用 MiniMax M2.7
从基于 NVIDIA Blackwell 的数据中心部署,到全托管企业级 NVIDIA NIM 微服务,再到微调,NVIDIA 为集成 MiniMax M2.7 提供解决方案。要开始使用,请查看 Hugging Face 或 build.nvidia.com 上的 MiniMax M2.7 页面。
标签
















