元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-26

在当今数据驱动的世界中，组织越来越依赖视频来捕获关键信息，但从海量影像中提取有意义的实时洞察仍然是一项挑战。NVIDIA Metropolis Blueprint for video search and summarization (VSS) 通过将数百万路实时视频流或数小时的录制视频转化为可即时搜索、可操作的情报，克服了这一障碍。

VSS 提供了一种参考架构，用于构建视频分析 AI 代理，使其能够对海量实时视频流和录制数据进行实时感知、推理和行动。它使用加速的基于视觉的微服务、视觉语言模型（VLM）、大语言模型（LLM）和检索器，实现实时视频智能、代理式搜索和自动化报告。VSS 帮助企业监控运营、发现趋势，并以前所未有的速度做出明智决策。最新版 VSS 带来了全新的模块化设计、先进的融合搜索能力，以及一组可轻松与自主代理集成的技能。

在本文中，你将了解如何使用新的 VSS 技能配合编码代理，自动完成 VSS 部署并将其集成到自定义应用程序中，随后还将深入探讨 VSS 3 背后的技术。继续阅读，了解如何使用 VSS 技能与编码代理来构建自主视频分析 AI 代理。

你还可以观看录像，了解如何使用 VSS 技能构建视频分析 AI 智能体。

Diagram shows the architecture of VSS, including real-time video intelligence, downstream analytics, and agentic and offline processing — 图 1. VSS 架构由一组用于分析视频的微服务、数据库和智能体组成

使用 VSS 技能和编码智能体构建视频 AI 智能体

过去，开发者必须手动配置、部署并集成 VSS 提供的丰富微服务集合，用于视频管理、搜索、摘要等，以构建视频分析应用。如今，可以使用经过 VSS 技能增强的编码智能体，通过一个简单的智能体式聊天界面，自动完成 VSS 的部署、使用和集成。

VSS 技能托管在 VSS GitHub Repository 上，并遵循 agent skills specification，因此可与多种智能体配合使用。使用这些技能的前提是拥有一个已配置为可运行 VSS 的系统，以及一个兼容技能的智能体，例如 Codex、Claude Code、OpenClaw 或 NemoClaw。

首先，我们将展示如何将 VSS 技能添加到 Codex，并用它部署 VSS 搜索配置文件。然后，我们将展示如何将 VSS 技能添加到 OpenClaw，这将使我们能够通过几乎任何聊天界面与 VSS 部署交互，以搜索和分析大量视频。

设置 VSS 前置条件

第一步是准备一个用于运行 VSS 的系统。最简单的方法是使用面向 VSS 的 NVIDIA Brev Launchable。前往 VSS launchable 文档页面，点击“Launch Blueprint”按钮，然后点击“Deploy Launchable”。

部署完成后，点击 Open Notebook 按钮，并导航到 /video-search-and-summarization/scripts/deploy_vss_launchable.ipynb notebook。将你从 NGC 获取的 NGC_CLI_API_KEY 粘贴到第一个单元格中，然后执行整个 notebook，包括清理（tear-down）部分。这将确保系统已为 VSS 完全设置好，之后你就可以使用 deployment skill，通过我们的 coding agent 管理 VSS 部署。

notebook 运行完成后，在你的主机系统上安装 Brev CLI，启动 VSCode，并按照 Launchable 页面中的 Using Brev CLI (SSH) 部分远程连接到你的 Brev Instance，如下方图 2 所示。

A screenshot showing the NVIDIA Brev Web UI with instructions for setting up the Brev command line interface — 图 2. 用于使用 Brev CLI 的 NVIDIA Brev Launchable 页面

配置好远程访问后，你可以通过 VSCode 扩展安装 Codex，将其用作 coding agent。

使用 Codex 部署 VSS

在 VSCode 中，你将使用扩展选项卡搜索并安装 Codex。安装完成后，你需要安装 VSS 技能。你可以通过让 Codex 自行安装 VSS 技能，并向其提供我们的 VSS Github 仓库位置来完成，如以下提示所示：

Read ~/video-search-and-summarization/skills/README.md and every SKILL.md file under ~/video-search-and-summarization/skills/. For each skill in the catalog, install it for this host so I can invoke it from a shell or chat session. Use the host's standard skills directory:

Claude Code: ~/.claude/skills/<name>/
Codex: ~/.codex/skills/<name>/
Hosts that follow the agentskills.io universal path: ~/.agents/skills/<name>/
Symlink each skill folder rather than copying it so a git pull here keeps every install up to date. Skip skills that are already installed and pointing at this checkout. When you're done, list the skills you registered and which directory you used.

下方图 3 展示了该智能体将如何响应，以验证它可以访问 VSS 技能。

A screenshot from a Codex chat listing out the VSS skills it has available — 图 3：Codex 用于验证 VSS 技能可用性的响应

将 VSS 技能加载到你的代理后，你可以使用它来部署各种 VSS 组件和配置文件。然后，你可以使用 Codex 部署新的 VSS Search 配置文件，如下方图 4 所示。

图 4：Codex 成功部署 VSS 搜索配置文件

随后，Codex 将规划部署，配置必要的环境变量，并部署启用 VSS Search 功能所需的所有容器。从这里开始，你可以继续使用 Codex 与 VSS 交互以搜索视频，或者继续阅读下一节，了解如何同时将 OpenClaw 与 VSS 技能配合使用。

使用 VSS 和 OpenClaw 搜索视频

在搜索配置文件运行的情况下，你可以安装并配置 OpenClaw，使其成为一个使用 VSS 分析视频的自主代理。

我们将向你展示如何在 Brev 系统上设置 OpenClaw，以了解强大的自主代理能够做什么。你将按照标准的 OpenClaw 安装说明，在连接到 Brev 实例的 VSCode 终端中进行安装，并使用推荐的安装脚本。

完成初始配置后，你可以孵化下方图 5 所示的代理，并为它提供一些上下文，说明它将成为一个使用 VSS 构建视频分析应用程序的代理。

A screenshot of the OpenClaw terminal user interface during initial setup — 图 5：使用有关 VSS 的上下文孵化 OpenClaw

完成初始设置后，你需要向 OpenClaw 提供 VSS Skills。最简单的方法是将这些 skills 手动复制到 OpenClaw 工作区。

mkdir ~/.openclaw/workspace/skills 
cp -r ~/video-search-and-summarization/skills/* ~/.openclaw/workspace/skills

现在，在终端中运行 openclaw dashboard 命令打开 OpenClaw UI，该命令会返回一个可点击链接，用于访问 OpenClaw UI。打开后，你可以验证 OpenClaw 是否能够访问 VSS Skills。

A screenshot of OpenClaw UI with a prompt to verify access to VSS skills — 图 6：OpenClaw 验证 VSS skills

现在，你可以让 OpenClaw 使用上一节中部署的 VSS 搜索配置文件，开始分析大量视频数据。在此示例中，你将提供三段在仓库中拍摄的 10 分钟视频的路径，这些视频需要针对梯子安全使用情况进行分析。你希望 OpenClaw 使用搜索功能找出视频中所有使用梯子的实例，并验证工人是否佩戴安全帽和安全背心。为此，你将使用以下提示词：

I have a set of warehouse videos located at ~/warehouse_videos. I need to find any instances of a worker climbing a ladder and verify they are wearing a hardhat and safety vest. Can you do this with the VSS Search profile that is deployed?

收到提示后，OpenClaw 将在后台开始工作，确定完成任务所需的必要技能以及相关的工具调用。

OpenClaw 利用 VSS 技能将你的视频文件上传到 VIOS，通过嵌入微服务摄取视频以生成可搜索索引，然后使用 VSS 中的融合搜索功能，查找工人佩戴安全帽和安全背心爬梯子的视频片段。

Two screenshots side by side showing the OpenClaw Chat UI with search results for ladder and PPE usage in warehouse videos — 图 7：使用 VSS 搜索配置文件验证安全梯子使用情况的 OpenClaw 结果

完成后，OpenClaw 会返回一份简明报告，汇总所有视频中看到的梯子使用情况，并附上视频截图。

本节仅介绍了一个简单示例：使用 Codex 进行部署，并使用 OpenClaw 通过 VSS Skills 进行视频分析。通过用 VSS Skills 增强智能体，它们将拥有无限可能，能够从视频数据中获取有价值的洞察，并借助 VSS 构建新的应用。

现在，你可以更深入地了解支撑 VSS 3 中丰富视频分析能力的技术。

更智能的视频：从警报到搜索

大规模视频搜索仍然是现代信息检索中最具挑战性的前沿领域之一。用户查询本质上复杂且含糊——仅用单个视觉嵌入来捕捉完整的语义意图从根本上是不够的，尤其是当对象和事件具有多层属性、难以用简单的向量表示时。

在超大规模下，要在数百万小时的视频素材中定位某个特定时刻，会成为真正的“大海捞针”问题；在单一嵌入空间中进行最近邻搜索，其精确率和召回率都会迅速下降。

视频 1：使用自然语言按属性、事件和动作进行智能体式视频搜索

要解决这些局限性，需要构建一种更复杂的搜索架构，其基础是两项核心能力：

多类型嵌入提取与检索，并结合相关性过滤和语义去重。
由代理式推理驱动的搜索编排；将复杂查询分解为易于处理的子查询，在每一步应用基于推理的检索策略，并运行迭代式验证和反思循环，以逐步优化结果。

该搜索架构首先使用 RTVI-CV 以及 embedding 和 RTVI-embedding 微服务来摄取视频并提取特征。随后，VSS agent 使用这些特征数据和具备视觉感知能力的工具，对视频执行深入的迭代式搜索，制定计划并检索结果，以定位视频时间轴中的特定对象或事件。

Diagram of a multi-embedding search pipeline where a query is converted into multiple embeddings, searched in separate indexes, and combined to return ranked results — 图 8. 多嵌入搜索流程

模块化架构带来高灵活性和高性能

VSS 围绕基于 docker-compose 的模块化开发者配置文件系统设计：基础代理可在五分钟内完成部署，并可根据需要在其上叠加其他工作流。

WorkflowProfileCore CapabilityBase / Q&AbaseVLM-based Q&A and report generation on short clipsAlert Verificationalerts (verification)CV pipeline + Behavior Analytics + VLM verificationReal-Time VLM Alertsalerts (VLM)Continuous VLM anomaly detection on live streamsSearchsearchAgentic multi-embedding search across video archivesVideo SummarizationlvsChunked summarization of extended recordings

表 1. 可用的 VSS 开发者配置文件

每个工作流都支持多种配置下的多种 GPU 类型，以满足您的硬件和性能需求。

让我们来看一下各种工作流和配置的基准测试结果。

智能体搜索工作流可通过其最大并发输入流数量、摄取传入流所需的时间，以及接收搜索结果的检索延迟来表征。下方表 2 展示了 H100 和 NVIDIA RTX PRO 6000 在单 GPU 配置下的这些指标。

GPUMax Concurrent Streams Max Ingestion Latency (s)Retrieval Latency (s)1x H100 330.0792.241x RTX PRO 6000510.1011.87

表 2：智能体搜索工作流的关键性能指标

对于警报验证工作流，会测量最大并发流数量以及完成验证所需的延迟。下方表 3 展示了这些指标，测量时使用 RT-DETR 作为检测器，Cosmos Reason 2 作为 VLM 验证器，并在平均每分钟 1 次警报事件的流上运行。

GPUMax Concurrent StreamsVerification Latency (s) 1x DGX Spark 1x AGX Thor 140.891x H1001471.011x RTX PRO 6000870.82

表 3：警报验证工作流的关键性能指标

长视频摘要微服务可快速生成数小时视频素材的摘要。下图显示了在给定 GPU 配置下，对一段一小时长的视频进行摘要所需的时间。将 LVS 微服务扩展到多个 GPU 可以大幅缩短摘要生成时间。

Bar chart showing tokens and time required for summarization using various hardware setups — 图 9：在多种 GPU 拓扑结构上使用长视频摘要微服务对 1 小时视频进行摘要所需的时间。

开始使用 VSS 技能

VSS 技能使开发者能够使用自然语言将视频转化为可搜索且有意义的数据，从而更轻松地发现洞察、生成摘要并构建更智能的应用程序。

如需深入了解 VSS，请参阅文档。在 Github 上探索所有 VSS 技能。

如有技术问题，请访问我们的论坛。

GTC 活动：欢迎参加 6 月在台北举行的 NVIDIA GTC，开发者、研究人员和行业领袖将在此齐聚一堂，共同探索 AI 的未来，涵盖智能体和推理 AI、物理 AI、机器人技术等领域。获取详细信息。

利用 AI 代理和技能将视频转化为即时可搜索、可操作的智能