中文内容
DeepSeek 刚刚推出其第四代旗舰模型 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash,两者都旨在实现高效的百万 token 上下文推理。
DeepSeek-V4-Pro 是该系列中最大的模型,总参数量为 1.6T,活跃参数为 49B。DeepSeek-V4-Flash 是一个较小的 284B 参数模型,活跃参数为 13B,面向更高速、更高效的工作负载而设计。两款模型都支持最高 1M token 的上下文窗口,为长上下文编码、文档分析、检索和智能体 AI 工作流开辟了新的可能性。
面向长上下文推理的架构创新
V4 系列建立在 DeepSeek MoE 架构之上,并更加侧重于优化 transformer 架构中的注意力组件。与 DeepSeek-V3.2 相比,这些创新旨在将每 token 推理 FLOPs 降低 73%,并将 KV 缓存内存负担降低 90%。
这一点很重要,因为长上下文正成为智能体应用的核心需求。智能体存储的不只是单个提示和响应。它们会在工作流中携带系统指令、工具输出、检索到的上下文、代码、日志、记忆以及多步推理轨迹。随着上下文窗口扩大,注意力和 KV 缓存会成为主要瓶颈。

应对这些挑战的核心架构方案是混合注意力,它融合了:
- Compressed Sparse Attention(CSA):利用动态序列压缩来压缩 KV 条目,以降低 KV 缓存内存占用;随后应用 DeepSeek Sparse Attention(DSA)对注意力矩阵进行稀疏化,从而降低计算开销。
- Heavily Compressed Attention(HCA):通过将多组 token 的 KV 条目合并为一个压缩条目,应用更激进的压缩,从而显著减小 KV 缓存大小。
DeepSeek-V4 的架构创新标志着从基础聊天向多轮、长上下文推理和智能体系统的转变。这一新范式给整个技术栈——软件、内存、计算和网络——带来压力,并从根本上改变推理经济性的动态。随着开放模型达到智能前沿,企业关注点正从模型选择转向基础设施策略。在这一格局中,最终的竞争优势在于能够以最低 token 成本部署并扩展这些高性能模型。
开箱即用的 NVIDIA Blackwell 性能洞察
无论开发者部署用于高级推理的 1.6T Pro 模型,还是部署面向高速高效的 284B Flash 模型,Blackwell 都提供了新时代 1M 长上下文推理和万亿参数智能所需的规模与低延迟性能。

NVIDIA Blackwell 平台正是为这类工作负载打造的。SemiAnalysis InferenceX 上的公开基准测试显示,在 NVIDIA GB200 NVL72 上运行的 DeepSeek-V4-Pro 可实现每用户超过 150 tokens/sec,在相近交互水平下每瓦性能比 H200 高 30 倍。除这些初步测试外,NVIDIA 团队还使用 vLLM 的 Day 0 NVIDIA HGX B300 recipe,生成了跨 Pareto 的开箱即用性能快照(图 2)。

随着我们优化整个极限协同设计栈,这一性能预计还会进一步提升:Dynamo、NVFP4、优化的 CUDA 内核、高级并行化技术等。
使用 NVIDIA GPU 加速端点进行构建
作为 NVIDIA Developer Program 的一部分,开发者可以通过 build.nvidia.com 上的 NVIDIA GPU 加速端点开始使用 DeepSeek V4 构建应用。托管端点提供了一种快速方式,可在转向自托管部署路径之前,使用最新模型进行原型开发。
DeepSeek V4 也可在发布首日通过 NVIDIA NIM 容器下载,因此可使用熟悉的 API 模式进行部署,用于构建长上下文编码、文档分析和智能体工作流。
使用 SGLang 部署
SGLang 为 NVIDIA Blackwell 和 Hopper 上的 DeepSeek‑V4 提供三种主要服务 recipe,分别针对不同的延迟/吞吐量配置文件(低延迟、均衡和最大吞吐量)进行调优,同时还提供面向长上下文工作负载以及 prefill/decode 解耦的专门 recipe。
使用 vLLM 部署
vLLM 为 NVIDIA Blackwell 和 Hopper 提供 DeepSeek‑V4 单节点和多节点服务 recipe,包括可扩展到 100+ GPU 的多节点 prefill/decode 解耦 recipe,并支持工具调用、推理和推测解码。
驱动智能体工作流
DeepSeek V4 尤其适合智能体,因为它擅长长上下文编排、推理和工具调用。要开始使用,开发者可以将 DeepSeek V4 配置为 LLM:
- NVIDIA NemoClaw:在安全的 OpenShell 环境中运行 OpenClaw,创建由 DeepSeek V4 驱动的长时间运行个人助手,用于代码生成、个人助理、自主支持等任务。运行 nemoclaw onboard,并在第 3 步输入你的 DeepSeek V4 provider URL 及其 DeepSeek V4 模型名称。
- NVIDIA AI-Q Blueprint:该蓝图可为你或你的智能体提供一流的深度研究助手。该蓝图基于 LangChain Deep Agents,具备可扩展性,可轻松将 DeepSeek V4 添加到你的工作流中,用于编排和规划。
- NVIDIA Data Explorer Agent:该智能体在 DABstep 基准测试中获得第 1 名;它擅长数据分析、数据科学和表格研究。该智能体使用 NeMo Agent Toolkit 编写,因此可以轻松切换为使用 DeepSeek V4。
- 使用开源 NVIDIA NeMo AutoModel 库(NVIDIA NeMo 框架的一部分)和此 flash recipe,对 DeepSeek V4 Flash 模型进行后训练。Pro 变体的微调支持即将推出。
使用开放智能体框架和开放模型的最大好处在于,你始终可以尝试新模型,以跟进最前沿进展。
开始使用 DeepSeek
从 NVIDIA Blackwell 上的数据中心部署,到托管式 NIM 微服务和微调工作流,NVIDIA 提供了一系列选项,可在开发和部署的不同阶段集成 DeepSeek 及其他开放模型。NVIDIA 是开源生态系统的积极贡献者,并已在开源许可证下发布了数百个项目。
要开始使用,请在 Hugging Face 上查看 DeepSeek-V4,或在 build.nvidia.com 上测试 pro。
















