元鉴
返回中文阅读流
NVIDIA Newsroom2026-06-10

NVIDIA 加速 Google DeepMind 的 DiffusionGemma,用于本地 AI

Google DeepMind 发布实验性开放模型 DiffusionGemma;NVIDIA 已优化其在 RTX、RTX PRO 与 DGX Spark 上的本地到云端运行速度。

摘要已翻译professional media英文原文正文翻译排队
正文翻译排队

该来源正文已进入翻译队列,中文正文生成前先展示摘要和原始出处入口。

摘要

Google DeepMind 发布实验性开放模型 DiffusionGemma;NVIDIA 已优化其在 RTX、RTX PRO 与 DGX Spark 上的本地到云端运行速度。

今天,Google DeepMind 发布了 DiffusionGemma——一个为极高速文本生成而构建的实验性开放模型。NVIDIA 已优化 DiffusionGemma,使其在 NVIDIA GeForce RTX GPU、NVIDIA RTX PRO 平台和 NVIDIA DGX Spark 系统上运行得更快,覆盖从本地 PC 到云端的场景。

DiffusionGemma 不是一次生成一个词,而是并行生成多个词,以输出整块文本,为开发者、研究人员和 AI 爱好者每天运行的单用户工作负载开辟了一个新的低延迟前沿。

新模型的特性包括:

  • 并行生成:DiffusionGemma 每一步最多可对 256 个 token 去噪,而不是逐个预测。
  • 基于 Gemma 4 构建:DiffusionGemma 基于 Gemma 4 构建,后者是一个 260 亿参数的混合专家模型,每一步仅激活 38 亿个参数,将扩散头与 Google 的 Gemma 4 架构结合在一起。
  • 性能最高提升 4 倍:这一提升意味着在本地硬件上实现快速文本生成,而单用户生成通常会在这里受限。
  • 开放且本地运行:DiffusionGemma 在宽松的 Apache 2.0 许可证下开放权重,并可完全在 RTX 和 DGX Spark 上运行——无需云端、无按 token 计费——并在 Hugging Face Transformers、vLLM 和 Unsloth 中提供首日支持。

一种不同的文本生成方式

如今广泛使用的几乎所有大型语言模型(LLM)都是自回归的——也就是说,它们一次生成一个 token,每个新词都依赖前一个词。正是这种顺序过程,让交互式 AI 看起来像是在打字。

DiffusionGemma 采用了不同路径。它基于 Gemma 4 26B 混合专家架构构建,以扩散模型生成图像的方式生成文本:从噪声开始,并一次性细化整块文本。每一步都会并行对最多 256 个 token 去噪,而不是输出单个 token 后再等待计算下一个。

其结果是一个以块为单位而非按顺序思考的模型。对于对延迟敏感的单用户工作——例如交互式聊天、智能体循环,或会规划并执行操作的端侧助手——这种并行性转化为足够快速的响应,以跟上开发者思考和迭代的节奏。

DiffusionGemma 在 NVIDIA GPU 上高速运行

一次生成一个 token 本质上是一个受内存限制的问题——传统 LLM 大部分时间都在等待内存带宽,而不是进行数学运算,这让大量算力未被充分利用。

扩散改变了这一关系。将完整的 256-token 块并行送入 transformer 是一种受计算限制的工作负载——这正是 NVIDIA GPU 所擅长的。NVIDIA Tensor Core 加速密集并行数学运算,CUDA 软件栈使模型从第一天起就能高效运行,无需专门调优。简言之,该模型的设计直接契合 GPU 的优势。

这一点体现在数据中。DiffusionGemma 在单个 NVIDIA H100 Tensor Core GPU 上可实现 1,000 tokens/秒,在 NVIDIA DGX Spark 上可实现 150 tokens/秒,在 NVIDIA DGX Station 上最高可达 2,000 tokens/秒——在相同单用户场景下,速度约为等效自回归模型的 4 倍。

这一优势贯穿 NVIDIA 的完整产品线,可运行于:

  • 在 NVIDIA DGX Spark 桌面级个人 AI 超级计算机上本地运行——该系统由配备 128GB 统一内存的 NVIDIA GB10 Grace Blackwell Superchip 提供支持,并预装 NVIDIA AI 软件栈,可用于原型开发、微调和完全本地的智能体工作流。
  • 在 NVIDIA RTX PRO 6000 工作站上运行,为开发者、研究人员和 AI 专业人士提供余量,使其能够将本地低延迟生成和智能体循环纳入专业工作流。
  • 在 DGX Station 上运行,凭借 748GB 一致性内存,为低延迟文本生成和智能体循环提供同类领先的本地高速推理,最高可达 2,000 tokens/秒。
  • 在 GeForce RTX GPU 上运行,llama.cpp 支持即将推出。

开始测试和原型开发该模型的最快方式是通过 Hugging Face Transformers,它可开箱即用地在 GeForce RTX 5090 或 DGX Spark 上运行 DiffusionGemma。对于更高吞吐量的推理,vLLM 提供首日服务支持。

若要将模型适配到特定任务或领域,可通过 Unsloth 和 NVIDIA NeMo framework 进行微调,并提供现成的 DGX Spark playbooks,以便快速搭建本地环境。可查看适用于 DGX Spark、RTX PRO 和 DGX Station 的 vLLM playbooks。

可在 Hugging Face 上试用 Diffusion Gemma,或使用 NVIDIA 托管的应用程序编程接口在 build.nvidia.com 免费测试。

如需更深入了解架构和本地部署,请阅读 NVIDIA 技术博客和 Google DeepMind 公告。

#ICYMI:RTX AI Garage 最新动态

🎬 NVIDIA 研究人员发布了 SANA-WM,这是一个开源世界模型,可将单张图像和一条相机路径转化为一分钟长、720p 的视频,并具备精确的 6-DoF 控制。其蒸馏版本仅有 26 亿参数,在单个 NVIDIA GeForce RTX 5090 GPU 上使用 NVFP4 格式,可在 34 秒内生成完整的 60 秒片段——在单 GPU 上运行时,吞吐量最高比同类开放模型高 36 倍。阅读论文。

🛠️ 构建 Windows 智能体现已获得完整工具集——NVIDIA 和 Microsoft 在原生 Windows 上推出了交钥匙式智能体沙箱方案——Microsoft eXecution Containers 加 NVIDIA OpenShell runtime——同时带来最高 2 倍更快的智能体推理,并为 Hermes Agent 提供原生 Windows 支持。

🤖 DGX Spark 从开箱到运行智能体只需几分钟——简化的 NVIDIA NemoClaw 安装可帮助开发者快速获得可工作的本地智能体,Qwen3.6-35B 在 vLLM 上运行速度最高提升 2.6 倍。NVIDIA Sync 中的新集群助手可将最多四台 DGX Spark 连接成一个 512GB 资源池——足以支持约 4000 亿参数的模型。

可在 Facebook、Instagram、TikTok 和 X 上关注 RTX Spark,并订阅 RTX Spark 新闻通讯以获取最新信息。

请参阅有关软件产品信息的通知。