元鉴
返回中文阅读流

NVIDIA Developer Blog

使用 NVIDIA GPU 加速端点配合 Qwen3.5 VLM 开发原生多模态智能体

阿里巴巴推出了专为原生多模态智能体构建的新开源 Qwen3.5 系列。该系列中的第一个模型是一个约 4000 亿参数的原生...

中文内容

已翻译official company source英文原文2026-05-26

阿里巴巴推出了专为原生多模态智能体打造的全新开源 Qwen3.5 系列。该系列首款模型为约 400B 参数的原生视觉语言模型(VLM),具备推理能力,采用混合专家(MoE)与门控 Delta 网络(Gated Delta Networks)的混合架构。Qwen3.5 能够理解并操作用户界面,较上一代 VLM 实现了显著改进。

Qwen3.5 非常适用于多种应用场景,包括:

  • 编程(包括 Web 开发)
  • 视觉推理(包括移动端和 Web 界面)
  • 聊天应用
  • 复杂搜索
Qwen3.5ModalitiesVision, languageTotal parameters397BActive parameters17BActivation rate4.28%Input context length256K extensible to 1M tokensLanguages supported200+Additional configuration informationExperts512Shared experts1Experts per token11 (10 routed + 1 shared)Layers60Words (vocabulary)248,320
表1. Qwen3.5 模型的规格与配置详情

使用 NVIDIA 端点进行构建

您今天即可开始在 build.nvidia.com 上使用 Qwen3.5 进行构建,免费访问由 NVIDIA Blackwell GPU 驱动的 GPU 加速端点。作为 NVIDIA 开发者计划的一部分,您可以在浏览器中快速探索、尝试提示词,甚至使用自己的数据测试该模型以评估其在真实场景中的表现。

视频1. 了解如何在 NVIDIA GPU 加速端点上测试 Qwen3.5

您还可以通过 API 使用由 NVIDIA 托管的模型,注册 NVIDIA Developer Program 即可免费使用。

import requests 
  
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" 
  
headers = { 
	"Authorization": "Bearer $NVIDIA_API_KEY", 
	"Accept": "application/json", 
} 
  
payload = { 
  "messages": [ 
	{ 
  	"role": "user", 
  	"content": "" 
	} 
  ], 
  "model": "qwen/qwen3.5-397b-a17b", 
  "chat_template_kwargs": { 
	"thinking": True 
  }, 
  "frequency_penalty": 0, 
  "max_tokens": 16384, 
  "presence_penalty": 0, 
  "stream": True, 
  "temperature": 1, 
  "top_p": 1 
} 
  
# re-use connections 
session = requests.Session() 
  
response = session.post(invoke_url, headers=headers, json=payload) 
  
response.raise_for_status() 
response_body = response.json() 
print(response_body)

若要使用工具调用功能,只需定义一个与 OpenAI 兼容的工具数组,并将其添加至聊天补全的 tools 参数中。

NVIDIA NIM 让将 Qwen3.5 从开发阶段推向生产环境变得轻而易举。作为经过优化且容器化的推理微服务,NIM 将模型与企业所需的性能调优、标准化 API 及部署灵活性进行了整合。支持随处下载与运行,无论是本地部署、云端还是混合环境均可适用。

使用 NVIDIA NeMo 进行定制

尽管 Qwen3.5 已具备出色的“开箱即用”多模态能力,NVIDIA NeMo 框架仍提供了将其适配于特定领域需求的关键工具。借助 NeMo Automodel 库,开发者能够以高吞吐量高效微调 Qwen3.5 的 397B 参数架构。

NeMo Automodel 是一个 PyTorch 原生训练库,提供 Day 0 Hugging Face 支持,允许直接在现有检查点上进行训练,无需繁琐的模型转换。这促进了快速实验,无论是进行全量监督微调(SFT)还是使用 LoRA 等显存高效方法。

作为参考实现指南,开发者可利用 Medical Visual QA 技术教程,其中详细介绍了如何在放射学数据集上微调 Qwen3.5。面向超大规模场景,NeMo 支持多节点 Slurm 与 Kubernetes 部署,确保即使是最大规模的 MoE 模型,也能以极低延迟针对特定领域推理与复杂的智能体工作流完成优化。

开始使用 Qwen3.5

从基于 NVIDIA Blackwell 的数据中心部署,到支持随处容器化部署的 NVIDIA NIM 微服务,NVIDIA 为您的 Qwen3.5 集成提供了解决方案。要开始使用,请查看 Hugging Face 上的 Qwen3.5 模型页面,并在 build.nvidia.com 上测试 Qwen3.5。

Like

标签

原文标题

Develop Native Multimodal Agents with Qwen3.5 VLM Using NVIDIA GPU-Accelerated Endpoints