元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-26

物理AI正在快速发展，涵盖从下一代软件定义自动驾驶汽车（AV）到人形机器人。当前的挑战已不再是如何运行大语言模型（LLM），而是如何在严格的功耗与延迟约束下，实现高保真推理、实时多模态交互以及轨迹规划。

NVIDIA TensorRT Edge-LLM 是一款面向嵌入式平台上的大语言模型（LLMs）和视觉语言模型（VLMs）的高性能 C++ 推理运行时，旨在克服这些挑战。

正如本文所述，最新的 TensorRT Edge-LLM 版本为 NVIDIA DRIVE AGX Thor 和 NVIDIA Jetson Thor 平台带来了基础能力的显著扩展。该版本引入了先进的边缘架构，包括混合专家（MoE）模型、面向物理 AI 的 NVIDIA Cosmos Reason 2 开放规划模型，以及用于嵌入式语音处理的 Qwen3-TTS 和 Qwen-ASR 模型。依托这些基础支柱，该版本还为 NVIDIA Nemotron 系列开放模型提供了优化支持。这为开发者构建下一代自主机器提供了必不可少的运行时环境。

大规模高效推理

在嵌入式硬件上运行大规模模型，需要重新考量计算效率。TensorRT Edge-LLM 最新版本全面实现了边缘端的 MoE 支持，并针对 Qwen3 MoE 等模型进行了专项优化。通过为每个 token 仅激活部分专家参数，MoE 架构使边缘设备能够具备大规模模型的推理能力，同时保持与更小模型相当的推理延迟和活跃计算资源占用。

这一架构转变对于在 NVIDIA DRIVE AGX Thor 和 NVIDIA Jetson Thor 等边缘平台上部署高保真推理至关重要。作为开发者，您可以大幅提升自主系统的智能水平，而不会超出实时关键任务操作所要求的严格功耗与延迟限制。

在边缘端解锁混合推理能力

TensorRT Edge-LLM 是一款专为全面支持 NVIDIA Nemotron 2 Nano 而设计的专用运行时。它使得在包括 NVIDIA DRIVE Thor 和 Jetson Thor 在内的嵌入式芯片上直接实现新型 System 2 推理成为可能。

对于构建先进车载 AI 助手或机器人对话智能体的开发者而言，在边缘端部署高性能语言模型面临着巨大的内存与延迟挑战。Nemotron 2 Nano 通过采用创新的 Hybrid Mamba-2-Transformer 架构，从根本上解决了这一难题。该架构利用 Mamba 状态空间模型显著降低了 KV 缓存的内存占用，同时保留了注意力层的高保真精度。

TensorRT Edge-LLM 通过提供加速这些特定混合层的优化内核，弥合了部署鸿沟。这使得开发者能够在严格保持符合生产标准的设备内存占用的前提下，利用该模型巨大的上下文窗口构建复杂的边缘检索增强生成（RAG）流水线或智能体工作流。

借助 TensorRT Edge-LLM 在边缘端实现动态“思考”，开发者得以充分利用模型在深度推理与即时对话交互之间无缝切换的能力。这一关键特性对于先进的智能座舱助手和机器人智能体至关重要，它们需要在瞬间对复杂用户查询进行推理，并在下一刻提供对话式回应。

深度推理模式（/think）：TensorRT Edge-LLM 高效处理思维链（CoT）生成所需的扩展 token 输出。通过调用 /think 系统提示，运行时环境使模型能够充分推演复杂逻辑，在最终输出决策前，于 MATH500 基准测试上取得了 97.8% 的优异成绩。
对话反射模式（/no_think）：针对对延迟极为敏感且用户期望即时回复的语音交互场景，开发者可下发 /no_think 指令。TensorRT Edge-LLM 将对该路径进行优化以跳过推理痕迹，直接提供流畅对话式 AI 与敏捷端侧智能体所必需的即时智能响应。

通过支持这一混合架构，TensorRT Edge-LLM 使紧凑且具备生产就绪能力的 VLMs 和 LLMs 能够同时充当推理助手与低延迟对话智能体，显著降低了物理 AI 的内存限制。

边缘侧实时多模态交互

TensorRT Edge-LLM 现已支持 Qwen3-TTS 与 Qwen3-ASR，这是一种采用 Thinker-Talker 架构、具备语音交互能力的原生多模态模型。与传统级联 ASR、LLM 和 TTS 模型并在每个环节增加延迟的流水线不同，Qwen3-TTS/ASR 可实现端到端的语音处理。

通过优化 Thinker 和 Talker 组件，TensorRT Edge-LLM 能够在芯片端直接实现低延迟、自然的语音合成：

Thinker：TensorRT Edge-LLM 对推理核心进行加速，使模型能够处理复杂的驾驶员查询与环境上下文，从而生成智能且经过推理的回复。
Talker：TensorRT Edge-LLM 与推理引擎协同工作，直接在芯片端提供低延迟、自然的语音合成（TTS）。

在自动驾驶车辆（AV）场景中，该功能可实现驾驶员与车辆之间无缝且支持随时打断的对话。

为人形机器人赋予物理常识

对于人形机器人和先进视觉智能体而言，理解真实世界不仅需要识别物体，还需要对物理规律和时间有直观的理解。为满足这一需求，TensorRT Edge-LLM 现已支持 Cosmos Reason 2，这是一款专为物理 AI 和机器人打造的开源、可定制推理 VLM。

Cosmos Reason 2 使具身智能体能够像人类一样进行推理，它利用先验知识、物理常识和思维链能力，在无需人工标注的情况下理解世界动态。借助 TensorRT Edge-LLM 优化的低延迟运行时环境，边缘端机器人可以高效地将 Cosmos Reason 2 用作主要规划模型，以推演其后续步骤。

经 TensorRT Edge-LLM 加速的 Cosmos Reason 2 主要能力包括：

先进的时空推理能力：通过提升时间戳精度，并结合对空间、时间及基础物理规律的深刻理解，增强了物理 AI 的推理能力。
3D定位与解释：不仅能够检测目标，还能提供2D与3D点定位、边界框坐标，以及针对其标签的上下文推理解释。
海量上下文处理：支持改进的长上下文窗口，最多可容纳 256K 个输入 token，使边缘智能体能够处理大规模的环境与历史数据。

通过支持 Cosmos Reason 2，TensorRT Edge-LLM 确保下一代机器人能够持续评估复杂的长尾物理场景，并实时安全地规划其动作。

基于端到端轨迹规划推动自动驾驶发展

在自动驾驶生产领域，最重大的转变之一是从传统模块化技术栈转向端到端VLA模型。NVIDIA Alpamayo 是一系列开源AI模型、仿真框架和物理AI数据集，旨在加速安全、透明且具备推理能力的自动驾驶汽车（AV）的开发。

敬请期待即将推出的 Alpamayo 1 工作流，这是一种蒸馏方案，旨在将 System 2 理性思维引入边缘端。Alpamayo 1 代表了相较于标准 VLM 的重大飞跃。它并非仅仅描述场景，而是规划穿越该场景的精确轨迹。该架构采用（已蒸馏的）Cosmos Reason 主干网络，在输出动作前生成因果链（推理轨迹）。

Alpamayo 集成至 TensorRT Edge-LLM 的关键特性包括：

Flow matching 轨迹解码：突破简单的回归方法，采用流匹配技术生成多样化、高保真的未来轨迹。
历史与上下文：模型对两秒历史轨迹和多摄像头输入进行标记化处理，并通过 Qwen3-VL 主干网络进行处理，以输出可解释的驾驶决策。例如，“向左微调以增加安全间距。”
性能：在 DRIVE Thor 平台上，Alpamayo 1 实现了符合量产标准的延迟，并对 Vision Transformer (ViT) 组件采用了 FP8 加速。

A diagram illustrating the evolution from a traditional AV stack, composed of separate perception, planning, and control modules, to an end-to-end VLA architecture that unifies vision, language understanding, and action generation within a — 图1. 自动驾驶汽车生产中最重大的转变是从传统模块化架构向端到端 VLA 模型过渡。

开始使用面向物理 AI 的 TensorRT Edge-LLM

TensorRT Edge-LLM 是专为汽车和机器人领域的关键任务需求而设计的首选开源纯 C++ 推理运行时。它消除了部署时的 Python 依赖，确保内存占用可预测。

从当下部署 Qwen3 MoE 的高效专家路由，到为未来 Alpamayo 1 的蒸馏推理做准备，NVIDIA 提供了构建下一代自主机器所必需的核心运行时。

如需快速上手，可在更新后的 TensorRT Edge-LLM GitHub 仓库或最新的 NVIDIA DriveOS 发行版中探索包含 Alpamayo 和 MoE 示例在内的新功能。

利用面向自动驾驶汽车和机器人的边缘优先 LLM 构建下一代物理 AI