元鉴
返回中文阅读流

AWS Machine Learning Blog

NVIDIA Nemotron 3 Ultra 现已在 Amazon SageMaker JumpStart 上可用

在 Amazon SageMaker JumpStart 部署 NVIDIA Nemotron 3 Ultra,面向代理式 AI 工作负载推理提速 5 倍、成本降低 30%。

中文内容

已翻译official company source英文原文2026-06-04

今天,我们很高兴宣布 NVIDIA Nemotron 3 Ultra 在 Amazon SageMaker JumpStart 上实现首日可用。

借助此次发布,你现在可以通过一键式部署体验来部署 Nemotron 3 Ultra 模型。Nemotron 3 Ultra 是一款开放模型,面向长时间运行的自主代理中的前沿推理与编排而构建,可为代理式工作负载带来 5 倍更快的推理速度,并将成本最高降低 30%。Nemotron 3 Ultra 针对 NVFP4 格式进行了优化,使该模型在托管时速度更快且更具成本效益。

NVIDIA Nemotron 3 Ultra 概览

NVIDIA Nemotron 3 Ultra 是一款开放的大型语言模型,总参数量为 5500 亿,活跃参数量为 550 亿。它基于混合 Transformer-Mamba 专家混合(MoE)架构构建,旨在以相当质量的稠密模型一小部分计算成本提供前沿智能。

Specification Details Architecture Hybrid Transformer-Mamba MoE Parameters 550B total / 55B active Context length Up to 1M tokens Input / Output Text in, text out Precision NVFP4 Inference speed 5x faster for long-running agent workflows Cost Up to 30% lower for complex agentic tasks

为什么代理式 AI 需要专门构建的模型

代理并不只是回答一次。它们会规划、调用工具、将工作委派给子代理、检查结果,并在数百轮交互中持续运行。每一步都会增加 token 和计算量,因此真正重要的指标是以实用准确性完成任务、完成所需时间以及每项任务成本。

Nemotron 3 Ultra 直接应对了这一点。其 MoE 架构在每次前向传播中仅激活 5500 亿参数中的 550 亿,即使在百万 token 上下文长度下也能保持高吞吐量。这意味着代理可以维持跨越数百轮的规划、工具调用和自我纠错循环,同时帮助保持一致性并管理成本。

企业用例

Nemotron 3 Ultra 擅长处理需要持续多步骤推理的工作负载:

  • 代理编排器——协调多个子代理,管理长工具调用链中的状态
  • 编码代理——在大型代码库中生成、测试、调试并迭代代码
  • 深度研究——综合来自多个来源的信息,在扩展上下文中保持连贯推理
  • 复杂企业工作流——通过决策分支和错误恢复自动化多步骤业务流程

开始使用 SageMaker JumpStart

你可以通过 Amazon SageMaker JumpStart 一键部署 Nemotron 3 Ultra,无需管理基础设施或配置服务框架。

先决条件

开始之前,请确保你具备:

  • 一个 AWS 账户
  • 针对 SageMaker JumpStart 的适当范围权限
  • 足够的 GPU 实例服务配额(例如 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge)

重要提示:部署此模型会创建一个 SageMaker 端点,其运行期间会产生费用。ml.p5en.48xlarge 等 GPU 实例每小时可能花费数美元。详情请参阅 Amazon SageMaker AI 定价。请记得在完成后删除端点,以避免持续产生费用。

使用 SageMaker Studio 部署

  1. 打开 Amazon SageMaker Studio
  2. 在左侧导航窗格中,选择 SageMaker JumpStart
  3. 搜索 Nemotron 3 Ultra
  4. 选择模型卡片
  5. 选择 Deploy
  6. 选择你的实例类型(支持的实例类型为 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge)
  7. 检查部署设置(默认设置足以满足大多数用例)
  8. 选择 Deploy 以创建端点
  9. 等待端点状态显示为 InService 后,再继续进行推理

使用 SageMaker Python SDK 部署

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",  # Verify in SageMaker JumpStart model card
    role=sagemaker.get_execution_role(),  # Your SageMaker execution role ARN
)
predictor = model.deploy(accept_eula=True)

运行推理

payload = {
    "messages": [{
        "role": "user",
        "content": "Break this task into subtasks, identify which tools are needed, and run them in sequence."
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

清理

为避免产生不必要的费用,请在使用完毕后删除 SageMaker 端点:predictor.delete_endpoint()

结论

NVIDIA Nemotron 3 Ultra 将前沿级推理带入 Amazon SageMaker JumpStart,为代理式工作负载提供 5 倍更快的推理速度,并将成本最高降低 30%。其混合 Transformer-Mamba MoE 架构和百万 token 上下文窗口,使其专为生产环境代理所需的持续多步骤推理而构建。

无论你是在构建代理编排器、编码代理、深度研究系统,还是复杂企业自动化,Nemotron 3 Ultra 如今都可从 SageMaker JumpStart 部署。

现在即可在 Amazon SageMaker JumpStart 中搜索 Nemotron 3 Ultra 开始使用。

关于作者

Dan Ferguson 是 AWS 的解决方案架构师,常驻美国纽约。作为机器学习服务专家,Dan 致力于支持客户高效、有效且可持续地集成 ML 工作流。

Malav Shastri 是 AWS 的软件开发工程师,任职于 Amazon SageMaker JumpStart 和 Amazon Bedrock 团队。他的工作重点是帮助客户利用先进的开源和专有基础模型。Malav 拥有计算机科学硕士学位。

Vivek Gangasani 是 SageMaker Inference 解决方案架构全球负责人。他负责 SageMaker Inference 的解决方案架构、技术市场推广(GTM)和对外产品战略。他还帮助企业和初创公司部署并优化 GenAI 模型,并使用 SageMaker 和 GPU 构建 AI 工作流。目前,他专注于制定优化推理性能的策略和内容,以及代理式工作流、RAG 等用例。闲暇时,Vivek 喜欢徒步、看电影和尝试不同美食。

原文标题

NVIDIA Nemotron 3 Ultra now available on Amazon SageMaker JumpStart