元鉴
返回中文阅读流

NVIDIA Developer Blog

通过 Gemma 4 将 AI 推向边缘端和设备端

Gemmaverse 推出最新 Gemma 4 多模态、多语言模型,覆盖从数据中心到边缘端的部署。

中文内容

已翻译official company source英文原文2026-05-26

随着最新 Gemma 4 多模态、多语言模型的发布,Gemmaverse 进一步扩展。这些模型旨在覆盖从数据中心的 NVIDIA Blackwell 到边缘端 Jetson 的全范围部署。它们适合满足 AI 开发与原型设计中的本地部署需求、安全的本地化要求、成本效率需求,以及对延迟敏感的使用场景。新一代模型同时提升了效率和准确性,使这些通用模型非常适合广泛的常见任务:

  • 推理:在复杂问题求解任务上表现强劲。
  • 编码:面向开发者工作流的代码生成与调试。
  • 智能体:原生支持结构化工具使用(函数调用)。
  • 视觉、视频和音频能力:支持丰富的多模态交互,可用于目标识别、自动语音识别(ASR)、文档与视频智能等场景。
  • 交错式多模态输入:可在单个提示词中以任意顺序自由混合文本和图像。
  • 多语言:开箱即用支持超过 35 种语言,并基于超过 140 种语言进行预训练。

该套件包含四个模型,其中包括 Gemma 的首个 MoE 模型;这些模型均可装入单块 NVIDIA H100 GPU,并支持超过 140 种语言。31B 和 26B A4B 变体是高性能推理模型,适用于本地和数据中心环境。E4B 和 E2B 是面向设备端和移动端设计的最新版本,这一方向最早随 Gemma 3n 推出。

Model Name Architecture Type Total Parameters Active or Effective Parameters Input Context Length 
(Tokens) Sliding Window 
(Tokens) Modalities Gemma-4-31B Dense Transformer 31B — 256K  1024  Gemma-4-26B-A4B  MoE – 128 Experts 26B  3.8B 256K —  Gemma-4-E4B Dense Transformer  7.9B with embeddings 4.5B effective 128K 512 Text, Audio, Vision, Video Gemma-4-E2B Dense Transformer  5.1B with embeddings 2.3B effective  128K 512 Text, Audio, Vision, Video 
表 1。Gemma 4 模型系列概览,总结架构类型、参数规模、有效参数、支持的上下文长度以及可用模态,帮助开发者为数据中心、边缘端和设备端部署选择合适模型。

每个模型现已在 Hugging Face 上提供 BF16 检查点;对于 NVIDIA Blackwell 开发者,可通过 NVIDIA Model Optimizer 结合 vLLM 获取 Gemma-4-31B 的 NVFP4 量化检查点。NVFP4 支持 4 位精度,同时保持与 8 位精度几乎相同的准确性,从而提升每瓦性能并降低每个 token 的成本。

在设备端运行智能工作负载

随着 AI 工作流和智能体越来越多地融入日常应用,在传统数据中心环境之外运行这些模型的能力正变得至关重要。NVIDIA 的客户端与边缘系统套件,从 RTX GPU、DGX Spark 到 Jetson Nano,为开发者提供了在支持医疗保健、金融等高度监管行业安全要求的同时,管理成本和延迟的灵活性。

我们与 vLLM、Ollama 和 llama.cpp 合作,为每个 Gemma 4 模型提供最佳本地部署体验。Unsloth 也通过 Unsloth Studio 提供首日支持,提供优化和量化模型,以实现高效本地部署。

查看 RTX AI Garage 博客文章,开始在 RTX GPU 和 DGX Spark 上使用 Gemma 4。

 DGX Spark Jetson  RTX / RTX PRO Use Case AI research  
and prototyping Edge AI and robotics Desktop apps  
and Windows development 
 Key Highlights A preinstalled NVIDIA AI software stack and 128 GB of unified memory power local prototyping, fine-tuning, and fully local OpenClaw workflowsNear-zero latency due to architecture features such as conditional parameter loading and per-layer embeddings which can be cached for faster and reduced memory use (more info
 Optimized performance for local inference for hobbyists, creators and professionals Getting Started Guide DGX Spark Playbooks for vLLM, Ollama, Unsloth and llama.cpp deployment guides 

NeMo Automodel for fine-tuning on Spark guide Jetson AI Lab for tutorials and custom Gemma containers RTX AI Garage for Ollama and llama.cpp guides. RTX Pro owners can use vLLM as well. 
表 2。NVIDIA 平台上的本地部署选项对比,重点介绍运行 Gemma 4 模型的 DGX Spark、Jetson 以及 RTX / RTX PRO 系统的主要用例、关键能力和推荐入门资源。

使用 DGX Spark 构建安全的智能体式 AI 工作流

AI 开发者和爱好者可受益于 DGX Spark 中配备 128 GB 统一内存的 GB10 Grace Blackwell Superchip,为使用 BF16 模型权重运行 Gemma 4 31B 提供所需资源。结合 DGX Linux OS 和完整的 NVIDIA 软件栈,开发者可以在保持私有、安全的设备端执行的同时,高效地使用 Gemma 4 进行原型开发并构建智能体式 AI 工作流。

vLLM 推理引擎旨在高效运行 LLM,在尽量降低内存使用的同时最大化吞吐量。在 DGX Spark 上使用 vLLM 高吞吐 LLM 服务,可为最大的 Gemma 4 模型提供高性能平台;vLLM for Inference DGX Spark playbook 提供了在 DGX Spark 上通过 vLLM 运行 Gemma 4 的详细信息。也可以使用 Ollama 或 llama.cpp 开始使用 Gemma 4。用户还可以通过 NeMo Automodel 在 DGX Spark 上进一步微调模型。

用 Jetson 驱动物理 AI 智能体

现代物理 AI 智能体正借助集成音频、多模态感知和深度推理能力的 Gemma 4 模型快速演进。这些先进模型使机器人系统能够超越简单任务执行,在采取行动前理解语音、解释视觉上下文并进行智能推理。在 NVIDIA Jetson 上,开发者可以使用 llama.cpp 和 vLLM 在边缘端运行 Gemma 4 推理。Jetson Orin Nano 支持 Gemma 4 e2b 和 e4b 变体,使小型、嵌入式和功耗受限系统能够进行多模态推理,同一模型系列可扩展到整个 Jetson 平台,直至 Jetson Thor。

这支持在机器人、智能机器和工业自动化等依赖低延迟性能和设备端智能的使用场景中进行可扩展部署。

Jetson 开发者可以查看教程并从 Jetson AI Lab 下载容器以开始使用。

视频 1。Gemma 4 31B 在 build.nvidia.com 上的演示

使用 NVIDIA NIM 进行生产就绪部署

企业开发者可通过 NVIDIA API catalog 中由 NVIDIA 托管的 NIM API 免费试用 Gemma 4 31B 模型进行原型开发。对于生产部署,他们可以在 NVIDIA Enterprise License 下使用预打包且优化的 NIM 微服务,进行安全的自托管部署。

使用 NeMo Framework 进行第 0 天微调

开发者可以使用 NVIDIA NeMo framework,特别是 NeMo Automodel 库,利用自己的领域数据定制 Gemma 4;该库将原生 PyTorch 的易用性与优化性能相结合。使用这一面向 Gemma 4 的微调方案,开发者可以应用监督式微调(SFT)和内存高效的 LoRA 等技术,从 Hugging Face 模型检查点出发进行第 0 天微调,无需转换。

今天开始使用

无论使用哪款 NVIDIA GPU,Gemma 4 都受到整个 NVIDIA AI 平台支持,并基于对商业友好的 Apache 2.0 license 提供。从即将推出 NVFP4 量化检查点的 Blackwell 到 Jetson 平台,开发者都可以快速开始部署这些高准确率多模态模型,并灵活满足速度、安全性和成本需求。

在 Hugging Face 上查看 Gemma,或使用 build.nvidia.com 上的 NVIDIA APIs 免费测试 Gemma 4 31B。

Like

标签

原文标题

Bringing AI Closer to the Edge and On-Device with Gemma 4