元鉴 Yuanjian

正文翻译排队

该来源正文已进入翻译队列，中文正文生成前先展示摘要和原始出处入口。

摘要

Google DeepMind 发布实验性开放模型 DiffusionGemma；NVIDIA 已优化其在 RTX、RTX PRO 与 DGX Spark 上的本地到云端运行速度。

今天，Google DeepMind 发布了 DiffusionGemma——一个为极高速文本生成而构建的实验性开放模型。NVIDIA 已优化 DiffusionGemma，使其在 NVIDIA GeForce RTX GPU、NVIDIA RTX PRO 平台和 NVIDIA DGX Spark 系统上运行得更快，覆盖从本地 PC 到云端的场景。

DiffusionGemma 不是一次生成一个词，而是并行生成多个词，以输出整块文本，为开发者、研究人员和 AI 爱好者每天运行的单用户工作负载开辟了一个新的低延迟前沿。

新模型的特性包括：

并行生成：DiffusionGemma 每一步最多可对 256 个 token 去噪，而不是逐个预测。
基于 Gemma 4 构建：DiffusionGemma 基于 Gemma 4 构建，后者是一个 260 亿参数的混合专家模型，每一步仅激活 38 亿个参数，将扩散头与 Google 的 Gemma 4 架构结合在一起。
性能最高提升 4 倍：这一提升意味着在本地硬件上实现快速文本生成，而单用户生成通常会在这里受限。
开放且本地运行：DiffusionGemma 在宽松的 Apache 2.0 许可证下开放权重，并可完全在 RTX 和 DGX Spark 上运行——无需云端、无按 token 计费——并在 Hugging Face Transformers、vLLM 和 Unsloth 中提供首日支持。

一种不同的文本生成方式

如今广泛使用的几乎所有大型语言模型（LLM）都是自回归的——也就是说，它们一次生成一个 token，每个新词都依赖前一个词。正是这种顺序过程，让交互式 AI 看起来像是在打字。

DiffusionGemma 采用了不同路径。它基于 Gemma 4 26B 混合专家架构构建，以扩散模型生成图像的方式生成文本：从噪声开始，并一次性细化整块文本。每一步都会并行对最多 256 个 token 去噪，而不是输出单个 token 后再等待计算下一个。

其结果是一个以块为单位而非按顺序思考的模型。对于对延迟敏感的单用户工作——例如交互式聊天、智能体循环，或会规划并执行操作的端侧助手——这种并行性转化为足够快速的响应，以跟上开发者思考和迭代的节奏。

DiffusionGemma 在 NVIDIA GPU 上高速运行

一次生成一个 token 本质上是一个受内存限制的问题——传统 LLM 大部分时间都在等待内存带宽，而不是进行数学运算，这让大量算力未被充分利用。

扩散改变了这一关系。将完整的 256-token 块并行送入 transformer 是一种受计算限制的工作负载——这正是 NVIDIA GPU 所擅长的。NVIDIA Tensor Core 加速密集并行数学运算，CUDA 软件栈使模型从第一天起就能高效运行，无需专门调优。简言之，该模型的设计直接契合 GPU 的优势。

这一点体现在数据中。DiffusionGemma 在单个 NVIDIA H100 Tensor Core GPU 上可实现 1,000 tokens/秒，在 NVIDIA DGX Spark 上可实现 150 tokens/秒，在 NVIDIA DGX Station 上最高可达 2,000 tokens/秒——在相同单用户场景下，速度约为等效自回归模型的 4 倍。

这一优势贯穿 NVIDIA 的完整产品线，可运行于：

在 NVIDIA DGX Spark 桌面级个人 AI 超级计算机上本地运行——该系统由配备 128GB 统一内存的 NVIDIA GB10 Grace Blackwell Superchip 提供支持，并预装 NVIDIA AI 软件栈，可用于原型开发、微调和完全本地的智能体工作流。
在 NVIDIA RTX PRO 6000 工作站上运行，为开发者、研究人员和 AI 专业人士提供余量，使其能够将本地低延迟生成和智能体循环纳入专业工作流。
在 DGX Station 上运行，凭借 748GB 一致性内存，为低延迟文本生成和智能体循环提供同类领先的本地高速推理，最高可达 2,000 tokens/秒。
在 GeForce RTX GPU 上运行，llama.cpp 支持即将推出。

开始测试和原型开发该模型的最快方式是通过 Hugging Face Transformers，它可开箱即用地在 GeForce RTX 5090 或 DGX Spark 上运行 DiffusionGemma。对于更高吞吐量的推理，vLLM 提供首日服务支持。

若要将模型适配到特定任务或领域，可通过 Unsloth 和 NVIDIA NeMo framework 进行微调，并提供现成的 DGX Spark playbooks，以便快速搭建本地环境。可查看适用于 DGX Spark、RTX PRO 和 DGX Station 的 vLLM playbooks。

可在 Hugging Face 上试用 Diffusion Gemma，或使用 NVIDIA 托管的应用程序编程接口在 build.nvidia.com 免费测试。

如需更深入了解架构和本地部署，请阅读 NVIDIA 技术博客和 Google DeepMind 公告。

#ICYMI：RTX AI Garage 最新动态

🎬 NVIDIA 研究人员发布了 SANA-WM，这是一个开源世界模型，可将单张图像和一条相机路径转化为一分钟长、720p 的视频，并具备精确的 6-DoF 控制。其蒸馏版本仅有 26 亿参数，在单个 NVIDIA GeForce RTX 5090 GPU 上使用 NVFP4 格式，可在 34 秒内生成完整的 60 秒片段——在单 GPU 上运行时，吞吐量最高比同类开放模型高 36 倍。阅读论文。

🛠️ 构建 Windows 智能体现已获得完整工具集——NVIDIA 和 Microsoft 在原生 Windows 上推出了交钥匙式智能体沙箱方案——Microsoft eXecution Containers 加 NVIDIA OpenShell runtime——同时带来最高 2 倍更快的智能体推理，并为 Hermes Agent 提供原生 Windows 支持。

🤖 DGX Spark 从开箱到运行智能体只需几分钟——简化的 NVIDIA NemoClaw 安装可帮助开发者快速获得可工作的本地智能体，Qwen3.6-35B 在 vLLM 上运行速度最高提升 2.6 倍。NVIDIA Sync 中的新集群助手可将最多四台 DGX Spark 连接成一个 512GB 资源池——足以支持约 4000 亿参数的模型。

可在 Facebook、Instagram、TikTok 和 X 上关注 RTX Spark，并订阅 RTX Spark 新闻通讯以获取最新信息。

请参阅有关软件产品信息的通知。

NVIDIA 加速 Google DeepMind 的 DiffusionGemma，用于本地 AI

一种不同的文本生成方式

DiffusionGemma 在 NVIDIA GPU 上高速运行

#ICYMI：RTX AI Garage 最新动态