中文内容
AI 应用正从文本生成迈向多模态系统,能够实时感知、搜索并推理图像、文档、视频和语言,将碎片化信息转化为可执行洞察。
StepFun 最新推出的 Step 3.7 Flash 将这些能力带入生产环境和企业级规模,并可在 NVIDIA 加速基础设施上使用。它是一个拥有 198B 参数的 Mixture-of-Experts 视觉语言模型,每次前向传播约激活 11B 参数,针对将感知、搜索和多步推理结合起来的生产级代理式工作流进行了优化。
凭借原生图像和视频输入、低/中/高三种可配置推理级别,以及 256k 上下文窗口,它面向金融分析、并发编码代理以及其他高吞吐量多模态企业用例而设计。开发者可使用 StepFun 通过 Hugging Face 提供的 NVFP4 量化检查点;由于降低了内存带宽和存储需求,该检查点可提升推理效率。

Step 3.7 Flash 可通过 SGLang、NVIDIA TensorRT-LLM 和 vLLM 等开源框架部署,以利用针对 NVIDIA 硬件优化的内核。
使用 NVIDIA 端点构建
开发者可使用 build.nvidia.com 提供的 GPU 加速端点,对 Step 3.7 Flash 进行原型开发和评估。可在演示 notebook 中试用,该 notebook 使用 Step 3.7 Flash 和 NVIDIA Nemotron Parse。这个多步骤文档智能流水线可从大型复杂文档中提取带有边界框的结构化洞察,例如财务报告、幻灯片和科研论文(包括 PDF),并整理输出结果。
使用 NVIDIA NIM 进行生产就绪部署
NVIDIA NIM 让 Step 3.7 Flash 从开发走向生产变得更容易。NIM 以优化的容器化推理微服务形式提供,将模型与企业所需的性能调优、标准化 API 和部署灵活性打包在一起。可在本地、云端或混合环境中下载并运行。NIM 提供标准 OpenAI 推理接口,用于向 NIM 服务器发送推理请求。
- 从 NVIDIA 容器注册表下载 NIM 容器(需要企业许可证)。
- 使用 OpenAI 客户端启动服务器。
- 向端点发送文本或图像输入。
from openai import OpenAI
client = OpenAI(
base_url = "http://0.0.0.0:8000/v1",
api_key="no-key-required"
)
completion = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[{"role":"user","content":"Explain particle physics?"}]
temperature=0.5,
top_p=1,
max_tokens=1024,
stream=True
)
for chunk in completion:
if chunk.choices[0].delta.content is not None:
print(chunk.choices[0].delta.content, end="")
使用 NVIDIA NeMo Framework 进行 Day 0 微调
Step 3.7 Flash 可使用 NVIDIA NeMo framework 的开放库,通过特定领域数据进行定制。NVIDIA NeMo Automodel 库将原生 PyTorch n-D 并行与优化性能相结合,并支持直接从 Hugging Face 模型检查点进行 Day 0 微调,无需检查点转换。Step 3.7 的 Automodel 微调方案支持监督微调(SFT)和内存高效 LoRA 等技术,在 Hopper GPU 上可达到 600 tokens/sec。
对于高级大规模训练,团队还可以使用 NeMo Megatron-Bridge 微调方案,该方案提供额外的性能优化。
从基于 NVIDIA Blackwell 的数据中心部署,到配备 NVIDIA DGX Station 的桌面级部署,再到托管式 NIM 微服务和 Day 0 微调工作流,NVIDIA 提供了一系列选项,用于在开发和部署的不同阶段集成 Step 3.7 Flash。凭借 748 GB 一致性内存,DGX Station 非常适合运行 Step 3.7 Flash,可为完整 256k 上下文长度提供更大余量,并加快本地开发者迭代。
NVIDIA 是开源生态系统的积极贡献者,已根据开源许可证发布了数百个项目。NVIDIA 致力于支持 Step 3.7 Flash 这类开放模型,以促进 AI 透明度,并使用户能够分享其 AI 安全性和韧性工作。
如需开始使用,可在 Hugging Face 上查看 Step 3.7 Flash,在 build.nvidia.com 上使用自己的数据进行测试,或使用 vLLM Playbook 在本地 DGX Station 上运行。















