中文内容
阿里巴巴推出了专为原生多模态智能体打造的全新开源 Qwen3.5 系列。该系列首款模型为约 400B 参数的原生视觉语言模型(VLM),具备推理能力,采用混合专家(MoE)与门控 Delta 网络(Gated Delta Networks)的混合架构。Qwen3.5 能够理解并操作用户界面,较上一代 VLM 实现了显著改进。
Qwen3.5 非常适用于多种应用场景,包括:
- 编程(包括 Web 开发)
- 视觉推理(包括移动端和 Web 界面)
- 聊天应用
- 复杂搜索
使用 NVIDIA 端点进行构建
您今天即可开始在 build.nvidia.com 上使用 Qwen3.5 进行构建,免费访问由 NVIDIA Blackwell GPU 驱动的 GPU 加速端点。作为 NVIDIA 开发者计划的一部分,您可以在浏览器中快速探索、尝试提示词,甚至使用自己的数据测试该模型以评估其在真实场景中的表现。
您还可以通过 API 使用由 NVIDIA 托管的模型,注册 NVIDIA Developer Program 即可免费使用。
import requests
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
headers = {
"Authorization": "Bearer $NVIDIA_API_KEY",
"Accept": "application/json",
}
payload = {
"messages": [
{
"role": "user",
"content": ""
}
],
"model": "qwen/qwen3.5-397b-a17b",
"chat_template_kwargs": {
"thinking": True
},
"frequency_penalty": 0,
"max_tokens": 16384,
"presence_penalty": 0,
"stream": True,
"temperature": 1,
"top_p": 1
}
# re-use connections
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()
response_body = response.json()
print(response_body)
若要使用工具调用功能,只需定义一个与 OpenAI 兼容的工具数组,并将其添加至聊天补全的 tools 参数中。
NVIDIA NIM 让将 Qwen3.5 从开发阶段推向生产环境变得轻而易举。作为经过优化且容器化的推理微服务,NIM 将模型与企业所需的性能调优、标准化 API 及部署灵活性进行了整合。支持随处下载与运行,无论是本地部署、云端还是混合环境均可适用。
使用 NVIDIA NeMo 进行定制
尽管 Qwen3.5 已具备出色的“开箱即用”多模态能力,NVIDIA NeMo 框架仍提供了将其适配于特定领域需求的关键工具。借助 NeMo Automodel 库,开发者能够以高吞吐量高效微调 Qwen3.5 的 397B 参数架构。
NeMo Automodel 是一个 PyTorch 原生训练库,提供 Day 0 Hugging Face 支持,允许直接在现有检查点上进行训练,无需繁琐的模型转换。这促进了快速实验,无论是进行全量监督微调(SFT)还是使用 LoRA 等显存高效方法。
作为参考实现指南,开发者可利用 Medical Visual QA 技术教程,其中详细介绍了如何在放射学数据集上微调 Qwen3.5。面向超大规模场景,NeMo 支持多节点 Slurm 与 Kubernetes 部署,确保即使是最大规模的 MoE 模型,也能以极低延迟针对特定领域推理与复杂的智能体工作流完成优化。
开始使用 Qwen3.5
从基于 NVIDIA Blackwell 的数据中心部署,到支持随处容器化部署的 NVIDIA NIM 微服务,NVIDIA 为您的 Qwen3.5 集成提供了解决方案。要开始使用,请查看 Hugging Face 上的 Qwen3.5 模型页面,并在 build.nvidia.com 上测试 Qwen3.5。
标签













