元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-26

评估 AI 模型与评估 AI 智能体彼此相关，但它们回答的是根本不同的问题。模型基准测试评估基础模型的能力（例如它理解语言、遵循指令或解决静态任务问题的表现）。智能体评估则测试一个端到端运行系统的行为——规划、调用工具、处理不确定性，并在动态环境中完成真实工作流。

本文解释模型评估与智能体评估之间的关键差异，并介绍将 AI 智能体作为生产系统进行评估的五条实用建议。这种评估方法关注轨迹、工具和结果，而不仅仅是模型分数。要了解如何定制 AI 智能体，请参见 Mastering Agentic Techniques: AI Agent Customization。

评估 AI 模型与评估 AI 智能体有什么区别？

尽管模型评估与智能体评估密不可分，但它们的技术基准和成功指标有根本差异。

AI 模型评估：能力基线

评估模型侧重于孤立地考察基础模型（例如 LLM 或 VLM）。它使用输入到输出映射已预先定义的静态数据集，衡量原始的认知和语言潜力。团队主要依赖 MMLU 等用于通用知识的基准、GSM8K 等用于数学推理的基准，以及 HumanEval 等用于编码能力的基准。

归根结底，模型评估的目标是回答一个问题：“这个引擎是否足够强大，能够理解我的指令并基于事实进行推理？”

Process diagram of AI model evaluation showing a foundation model assessed in isolation with static benchmark tasks and capability scores. — 图 1。AI 模型评估使用静态基准孤立地衡量基础模型，这些基准测试知识、推理、编码和指令遵循能力。

AI 智能体评估：性能轨迹

智能体评估将视角转向轨迹：推理、工具调用和环境观察的端到端序列。一个智能体可能使用顶级模型，但仍会失败，因为它为某个 API 幻觉生成了 JSON schema，或在一次搜索失败后陷入无限循环。

智能体评估进入动态环境，使用 GAIA 基准评估真实世界辅助能力，使用 SWE-bench 评估 GitHub 问题解决能力，使用 WebArena 评估基于网页的任务执行能力。从技术上看，这种评估需要跟踪任务成功率（Task Success Rate，TSR）以衡量意图解决情况，跟踪工具调用准确率（Tool Call Accuracy）以确保函数调用的精确性，并跟踪轨迹效率（Trajectory Efficiency）以识别冗余步骤。虽然较高的 MMLU 分数是前提条件，但它并不能保证智能体可靠。

目标从衡量知识转向衡量结果。问题变成：“这个系统能否在非确定性环境中可靠地执行多步骤工作流？”

Diagram of AI agent evaluation showing a multistep workflow of planning, tool use, observations, and outcome metrics such as task success, tool call accuracy, and trajectory efficiency. — 图 2。AI 智能体评估通过轨迹、工具调用、环境观察和任务结果来衡量一个端到端系统。

如何评估 AI 智能体

本节介绍评估 AI 智能体的五条实用建议。

建议 #1：衡量任务成功，而不仅是准确率

MMLU、GSM8K 和 HumanEval 等模型基准表明智能体的基础模型是否具备能力，而不是说明该智能体能否在你的技术栈中完成真实任务。

对于智能体评估，应优先关注 TSR：

将任务定义为意图加约束；例如：“在两次工具调用内通过此 API 更新这条记录。”
只有当智能体在这些约束内完全解决该意图时，才计为成功。
按场景（正常、工具降级、指令含糊）跟踪 TSR，以暴露脆弱性。

最终答案的传统准确率成为 TSR 之下的次级诊断指标。

建议 #2：评估完整轨迹，而不仅是最终答案

两个智能体可能给出相同答案，但行为方式截然不同：例如，一个使用三次精准的工具调用，另一个则在数十个无关步骤中反复尝试。最终答案评分会把这些智能体视为相同，但生产环境中的行为并非如此。

为你的智能体加装检测记录，以记录完整轨迹：

计划和子目标
所有工具调用、参数和响应
在可行情况下记录中间推理步骤
最终答案和副作用（写入、更新）

然后计算轨迹效率（每次成功所需的步骤/Token 数）、工具调用准确率和失败模式分布（计划、工具、环境）等指标。

建议 #3：将工具使用作为一类核心信号

多数生产级智能体的成败取决于它们如何使用工具——API、数据库、搜索——而不是措辞。

对于每个评估任务，指定预期的工具行为：

允许或要求使用哪些工具
每个工具的最大调用次数
每次调用的预期 schema

衡量以下内容，以揭示诸如幻觉生成 API schema 或过度使用缓慢且昂贵工具等模式：

工具选择的精确率和召回率：是否选择了正确工具并避开了错误工具？
Schema 合规性：参数是否在不重试的情况下匹配预期结构？

建议 #4：评分推理质量和效率

答案正确但推理有缺陷或步骤过多，会带来计算资源成本。以下技术可同时帮助评估推理和效率：

捕获推理轨迹（计划或论证字段），并定期将其标注为合理、部分有缺陷或不正确。
检查推理是否使用了检索到的证据，而不是忽略它。
按成功任务跟踪 Token 数、工具调用次数和端到端延迟。

在调优提示词、路由或重试策略时，使用明确预算（例如，“95% 的任务低于 N 个 Token 和 M 次工具调用”）作为约束。

建议 #5：从第一天起构建透明、可定制的评估

与其事后改造可观测性，不如将评估作为智能体设计的一部分。

以下是从第一个原型开始即可采用的一些方法：

使用稳定 ID 记录每个计划、工具调用和关键推理步骤，使轨迹易于重建。
为轨迹附加标签（成功/失败、错误类型、人工评分）。
同时支持全局指标（TSR、轨迹效率、工具调用准确率）和特定用例指标（例如研究场景中的引用覆盖率）。

这种方法将评估转化为日常开发工具，从而能够尽早发现改进点或漏洞。

DimensionWhat is measuredWhy it mattersTask success or accuracyTask success rate per scenarioMaps directly to, “Can the agent do real work here?”Trajectory visibilityLogged steps, plans, tool calls, failure modesOpens the black box and makes debugging and explainability targeted. Tool usageTool selection, schema compliance, retriesCaptures real integration quality beyond model scores.Reasoning and efficiencyReasoning soundness, tokens, steps, latency per taskBalances correctness with cost and performance.Custom metricsUse-case-specific KPIs (tone, safety, citations, risk)Aligns evaluation with business and compliance goals.

表 1。全面评估 AI 智能体的关键维度

开始评估 AI 智能体

可靠的智能体系统会将评估从静态模型基准转向动态、轨迹感知的指标，这些指标反映智能体在真实环境中的行为。你需要同时跟踪结果、工具使用、推理和成本，然后从一开始就将这些信号接入开发循环。

NVIDIA NeMo Agent Toolkit 旨在接入现有智能体框架，并在无需全面重构的情况下增加评估、优化和可观测性。它帮助你捕获上述指标——任务结果、轨迹和工具调用——从而通过评估驱动开发进行迭代。

要了解更多信息，请按需观看相关 GTC 2026 会议和培训实验室：

Evaluation-Driven Development: Best Practices for Building Reliable Agents（GTC 会议）
Develop Production Agents with Eval-Driven Design（GTC 培训实验室）

掌握智能体技术：AI 智能体评估