元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-06-04

今天，我们很高兴宣布 NVIDIA Nemotron 3 Ultra 在 Amazon SageMaker JumpStart 上实现首日可用。

借助此次发布，你现在可以通过一键式部署体验来部署 Nemotron 3 Ultra 模型。Nemotron 3 Ultra 是一款开放模型，面向长时间运行的自主代理中的前沿推理与编排而构建，可为代理式工作负载带来 5 倍更快的推理速度，并将成本最高降低 30%。Nemotron 3 Ultra 针对 NVFP4 格式进行了优化，使该模型在托管时速度更快且更具成本效益。

NVIDIA Nemotron 3 Ultra 概览

NVIDIA Nemotron 3 Ultra 是一款开放的大型语言模型，总参数量为 5500 亿，活跃参数量为 550 亿。它基于混合 Transformer-Mamba 专家混合（MoE）架构构建，旨在以相当质量的稠密模型一小部分计算成本提供前沿智能。

Specification Details Architecture Hybrid Transformer-Mamba MoE Parameters 550B total / 55B active Context length Up to 1M tokens Input / Output Text in, text out Precision NVFP4 Inference speed 5x faster for long-running agent workflows Cost Up to 30% lower for complex agentic tasks

为什么代理式 AI 需要专门构建的模型

代理并不只是回答一次。它们会规划、调用工具、将工作委派给子代理、检查结果，并在数百轮交互中持续运行。每一步都会增加 token 和计算量，因此真正重要的指标是以实用准确性完成任务、完成所需时间以及每项任务成本。

Nemotron 3 Ultra 直接应对了这一点。其 MoE 架构在每次前向传播中仅激活 5500 亿参数中的 550 亿，即使在百万 token 上下文长度下也能保持高吞吐量。这意味着代理可以维持跨越数百轮的规划、工具调用和自我纠错循环，同时帮助保持一致性并管理成本。

企业用例

Nemotron 3 Ultra 擅长处理需要持续多步骤推理的工作负载：

代理编排器——协调多个子代理，管理长工具调用链中的状态
编码代理——在大型代码库中生成、测试、调试并迭代代码
深度研究——综合来自多个来源的信息，在扩展上下文中保持连贯推理
复杂企业工作流——通过决策分支和错误恢复自动化多步骤业务流程

开始使用 SageMaker JumpStart

你可以通过 Amazon SageMaker JumpStart 一键部署 Nemotron 3 Ultra，无需管理基础设施或配置服务框架。

先决条件

开始之前，请确保你具备：

一个 AWS 账户
针对 SageMaker JumpStart 的适当范围权限
足够的 GPU 实例服务配额（例如 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge）

重要提示：部署此模型会创建一个 SageMaker 端点，其运行期间会产生费用。ml.p5en.48xlarge 等 GPU 实例每小时可能花费数美元。详情请参阅 Amazon SageMaker AI 定价。请记得在完成后删除端点，以避免持续产生费用。

使用 SageMaker Studio 部署

打开 Amazon SageMaker Studio
在左侧导航窗格中，选择 SageMaker JumpStart
搜索 Nemotron 3 Ultra
选择模型卡片
选择 Deploy
选择你的实例类型（支持的实例类型为 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge）
检查部署设置（默认设置足以满足大多数用例）
选择 Deploy 以创建端点
等待端点状态显示为 InService 后，再继续进行推理

使用 SageMaker Python SDK 部署

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",  # Verify in SageMaker JumpStart model card
    role=sagemaker.get_execution_role(),  # Your SageMaker execution role ARN
)
predictor = model.deploy(accept_eula=True)

运行推理

payload = {
    "messages": [{
        "role": "user",
        "content": "Break this task into subtasks, identify which tools are needed, and run them in sequence."
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

清理

为避免产生不必要的费用，请在使用完毕后删除 SageMaker 端点：predictor.delete_endpoint()

结论

NVIDIA Nemotron 3 Ultra 将前沿级推理带入 Amazon SageMaker JumpStart，为代理式工作负载提供 5 倍更快的推理速度，并将成本最高降低 30%。其混合 Transformer-Mamba MoE 架构和百万 token 上下文窗口，使其专为生产环境代理所需的持续多步骤推理而构建。

无论你是在构建代理编排器、编码代理、深度研究系统，还是复杂企业自动化，Nemotron 3 Ultra 如今都可从 SageMaker JumpStart 部署。

现在即可在 Amazon SageMaker JumpStart 中搜索 Nemotron 3 Ultra 开始使用。

关于作者

Dan Ferguson 是 AWS 的解决方案架构师，常驻美国纽约。作为机器学习服务专家，Dan 致力于支持客户高效、有效且可持续地集成 ML 工作流。

Malav Shastri 是 AWS 的软件开发工程师，任职于 Amazon SageMaker JumpStart 和 Amazon Bedrock 团队。他的工作重点是帮助客户利用先进的开源和专有基础模型。Malav 拥有计算机科学硕士学位。

Vivek Gangasani 是 SageMaker Inference 解决方案架构全球负责人。他负责 SageMaker Inference 的解决方案架构、技术市场推广（GTM）和对外产品战略。他还帮助企业和初创公司部署并优化 GenAI 模型，并使用 SageMaker 和 GPU 构建 AI 工作流。目前，他专注于制定优化推理性能的策略和内容，以及代理式工作流、RAG 等用例。闲暇时，Vivek 喜欢徒步、看电影和尝试不同美食。

NVIDIA Nemotron 3 Ultra 现已在 Amazon SageMaker JumpStart 上可用