中文内容

已翻译official company source英文原文2026-06-01

Back to Articles

超越 LLM：为什么可扩展的企业 AI 采用取决于代理逻辑

企业文章发布于 2026 年 6 月 1 日

Upvote

正文：83

正文：+77

纵观历史，向导一直在帮助人类。史前文明就已经认识到，太阳和月亮可用于在陆地和公海上进行远距离导航。随着时间推移，各种旅程推动了地图的制作，以便更好地规划路线，并缩短前往重复目的地的旅行时间。几个世纪后，指南针的出现使航海者能够在寻找未探索目的地时获得更高的准确性。而如今，GPS 导航应用为我们的每一次旅程提供指引。在当今的智能体 AI 世界中，AI agents 无疑有潜力推动 AI 的规模化采用，改变我们所熟知的各个行业。然而，要实现这一潜力，需要一种智能向导——智能体逻辑，以推动高质量的智能体、成本效益以及由此产生的终端用户信任。

企业工作流与用例

许多研究指出，AI 试点项目失败率极高，另一些研究也强调，AI 需要在企业工作流的核心运行，才能实现规模化采用。[1] [2] 为了更好地理解这一现象及相关论断，需要对企业工作流进行一些分析。这些工作流包括：

A. 动态且长时间运行 B. 拥有大量 API、数据库和服务 C. 通常受业务政策和/或法规约束

鉴于上述特征，要让智能体有效运行，自然需要扩展的模型上下文；最先进的前沿 LLM 当然具备这一点，但代价是什么？幻觉增加、token 消耗增加？此外，能否为 LLM 配备一个智能指南（GPS），以便在工作流核心实现智能体式 AI 执行，从而推动更理想的结果？我们通过设计和构建配备相关智能体逻辑的智能体来检验这些假设，这些智能体用于 IBM 产品，并充分考虑上述特征。这些产品涉及主题专家所面临的一些最具挑战性的任务；这些主题专家负责关键任务工作负载的企业软件交付生命周期的各个阶段，包括：

理解用遗留代码（Cobol / PL/1）编写的应用程序
加快开发者的测试生成
主动响应事件并实现应用韧性左移
为关键环境自动化合规现代化

在详细考察这些领域中的每一个之前，我们先定义代理逻辑的特征。代理逻辑是软件原语，例如知识图谱、算法、程序分析库，它们运行在代理层（位于代理框架内），并能够有意地将 LLM 引导向企业工作流方向，从而缩小上下文空间。这样做往往能够以更具成本效益的方式推动实现更高性能的结果。现在让我们考察代理逻辑如何在上述四个领域中的每一个领域实现这些结果。

理解用遗留代码（Cobol / PL/1）编写的应用程序——程序分析。[3]

IBM watsonx Code assistant for Z（WCA4Z）用于通过 AI 和自动化加速大型机应用开发与现代化，配备了用于应用理解的 App Insights 代理——这是在 IBM 大型机上运行关键任务工作负载的企业客户的主要关注领域之一。该代理利用跨应用的深度静态分析，并将预索引表示存储在一个数据库模式中，该模式横跨数百个相互关联且语义复杂的表，使代理能够检索精确、结构化且已存在的信息；从而提高回答准确性、减少 token 使用量，并尽量减少与语言模型（本例中为 Mistral Medium 250B）的来回交互。将这种方法应用于多个关键任务遗留系统（最多 100 万行代码和 1000 个程序）时，保持了略微更优的应用 u

使用 Aster——程序分析，加快开发者的测试生成。[4]，[5]

Aster 是 IBM 专有的程序分析以及基于数据预处理和后处理的库，用于以智能体方式生成单元测试、集成测试、API 测试和基于变更的测试；通过对多个开发者社区的分析，相比各种开源工具或开发者编写的测试，它获得了更高的开发者评分。基于这一点，以及与类似开源工具（集成测试）和零样本 LLM 及编码智能体（单元测试）相比，在行覆盖率、分支覆盖率和方法覆盖率基准上的优越表现（所有测试均在开源应用上进行），我们一直在 75+ 个 Java IBM CIO 应用（最高达 560+ 个类和 67K+ 行代码）上以预生产模式运行 Aster，并使用 Devstral 24B 模型。迄今为止的稳态结果显示，行覆盖率、分支覆盖率和方法覆盖率提升了 +20% 至 45%，并且在这些应用的一个子集上相较于 state-of-the-a 表现更优

主动响应事件并实现左移应用韧性——由知识图谱、程序分析库和调查（可观测性）驱动的编排。[6],[7]

虽然第 1 和第 2 点中描述的应用相关用例的 LLM 上下文被“限制”在应用源代码范围内，但对于已部署基础设施上的应用运行时管理而言，底层 IT 全栈也会发挥作用。在这里，我们定义了一个知识图谱（KG），涵盖实体（微服务、数据库/中间件服务、MELT 等），并结合来自领域专家的嵌入式（“部落”）知识。借助这样的图谱，并将 LLM 限定在局部有界推理范围内以处理非确定性结果，可以采用一种由可观测性驱动的方法，实现覆盖 IT 技术栈和底层应用源代码（如相关）的缩减上下文空间，用于事件根因分析（以及其他用例）。通过这种方法，利用等效的 Instana 数据模型，我们看到专有的 Instana “I3”（智能事件调查 [8]）代理相较于以 GPT-5.1 作为 me 的 ReAct 代理实现了高达 4.0 倍的改进

面向关键环境的 IT 合规现代化自动化——算法以及自适应规划与编排。[11]

企业面临日益复杂且碎片化的合规要求，迫使团队花费大量时间手动创建控制措施、评估和整改计划。不存在集中化知识库，修复方案也由人工编写，这会带来错误和安全缺口风险。由于合规工作复杂且包含多个步骤，因此需要在专业化智能体之间进行由策略驱动的协同自动化，而不是依赖人工工作或简单的 AI 提示。我们的多智能体系统通过算法方式将复杂任务分解为协同步骤，利用自适应规划、动态分解和工作流排序，并结合持续反馈，迭代地识别修复方案并扩展评估，从而实现合规自动化。使用固定规划策略时，它的性能比以往智能体（Claude 4 Sonnet）高 1.3–2.0 倍，这一点也通过 ITBench 测量得到验证。这种方法改变了 compl

以上示例说明了智能体逻辑在减少 LLM 上下文并引导 LLM 以高性能且具有成本效益的方式遍历工作流核心方面的影响。此外，我们还将类似方法应用于两个案例研究：一个是在医疗保健领域使用可配置通用智能体和运行时（CUGA），另一个是与 IBM Global Real Estate 合作开展的实体资产基于状态的维护。

领域案例研究

案例研究 1：可配置通用智能体（CUGA）医疗保健基准——算法化政策执行。[13]

以下健康保险客户服务示例简要说明了为什么在受监管环境中，智能体系统优于仅基于 LLM 的对话模型。CUGA（可配置通用智能体）的政策系统为智能体治理实现了“政策即代码”，该治理在运行时执行，独立于模型提示词，且无需微调。我们的实验表明，该智能体的政策系统弥合了任务正确性方面的巨大差距，在所有模型系列（Claude Opus – 4.5、GPT OSS 120B 和 GPT – 4.1）中强制执行结构化工作流、安全的意图处理、可靠的工具使用以及受控的输出格式，准确率提升幅度从 15% 到 26% 不等。权限通过最小权限披露、明确的合规规则和人工升级路径来执行。智能行动会被提出，而权限则由政策和监督机制来行使。推理

案例研究 2：IBM Global Real Estate 实体资产的基于状态的维护——有向无环图。[14],[15]

企业维护系统收集大量资产数据，但无法有效地将其整合，导致专家不得不手动拼接碎片化信号，并在缺乏统一、基于证据的洞察的情况下做出决策。我们近期推出的 Maximo Condition Insights [16] 代理会分析跨数千项资产和地点的大规模资产数据（传感器、工单、故障模式和事件分析），通过结构化证据和验证循环可靠地识别问题、确定行动优先级，并以一致、可追溯的洞察支持决策。我们已在 IBM Global Real Estate (GRE) 内部试点该代理（使用 GPT OSS 120B），将资产分析时间从 15-20 分钟缩短到 15-30 秒（提升 97%），并将资产审查覆盖率从约 1% 提高到约 30%，覆盖 120 多个站点和 6K 项实物资产。使用 AssetOpsBench，Condition In

总结与参考文献：几个世纪以来，我们一直受益于各种指南，它们简化并改善了我们的生活。随着技术的发展，我们使用的指南也在演进，使我们能够完成更多事情，并进一步缩小我们的地球村。随着这一代理型 AI 时代的到来，在我们寻求部分通过规模经济进一步提升社会之际，应继续这一趋势，充分利用代理逻辑，从核心上简化模型上下文并智能地遍历企业工作流；只有这样，才能真正以最优运营成本实现可扩展的采用。

[1] The GenAI Divide: STATE OF AI IN BUSINESS 2025，MIT 研究，https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf

[2] From AI projects to profits: How agentic AI can sustain financial returns，IBM IBV 报告，https://www.ibm.com/thought-leadership/institute-business-value/en-us/report/agentic-ai-profits

[3] Understand，IBM Watson Code assistant for Z，2026 年 2 月 27 日，https://www.ibm.com/docs/en/watsonx/watsonx-code-assistant-4z/2.x?topic=understand

[4] R. Pan、R. Krishna、R. Pavuluri 等，ASTER：使用 LLM 生成自然语言和多语言单元测试 - IBM Research，2025 年 4 月 30 日，https://research.ibm.com/blog/aster-llm-unit-testing

[5] R. Pan、R. Pavuluri、R. Huang 等，SAINT：基于程序分析和 LLM 智能体的服务级集成测试生成，2025 年 11 月 17 日，https://arxiv.org/abs/2511.13305

[6] S. Jha、R. Arora、Bhavya 等，Think Locally, Explain Globally：通过局部推理和信念传播进行图引导的 LLM 调查，2026 年 1 月 25 日，https://arxiv.org/abs/2601.17915

[7] S. Cui、R. Krishna、S. Jha 等，Agentic Structured Graph Traversal for Root Cause Analysis of Code-related Incidents in Cloud Applications，2025 年 12 月 26 日，https://arxiv.org/html/2512.22113v1

[8] IBM Instana 和 Intelligent Incident Investigation 代理：https://www.ibm.com/new/announcements/resolve-incidents-faster-with-ibm-instana-intelligent-incident-investigation-powered-by-agentic-ai

[9] S. Jha、R. Arora、Y. Watanabe 等，ITBench：在多样化的真实世界 IT 自动化任务中评估 AI 代理，2025 年 2 月 7 日，https://arxiv.org/abs/2502.05352

[10] IBM Concert 平台：https://www.ibm.com/new/announcements/from-insight-to-action-closing-the-gap-in-modern-it-operations

[11] Y. Watanabe、T. Yanagawa、H. Kitahara、A. Sailer，使用 GenAI CISO Assessment Agent 实现 IT 合规自动化，DZone 教程，2025 年 12 月 12 日 https://dzone.com/articles/itbench-part-3-it-compliance-automation-with-genai

正文：[12] IBM Sovereign Core：https://newsroom.ibm.com/2026-05-05-think-2026-ibm-makes-digital-sovereignty-operational-with-general-availability-of-ibm-sovereign-core

[13] S. Shlomov、A. Oved、S. Marreed 等，From Benchmarks to Business Impact: Deploying IBM Generalist Agent in Enterprise Production，2025年12月9日，https://arxiv.org/pdf/2510.23856

[14] D. Patel、S. Lin、J. Rayfield 等，AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance，2025年6月4日，https://arxiv.org/abs/2506.03828

[15] Fearghal O'Donncha、Nianjun Zhou、Natalia Martinez 等，Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data https://arxiv.org/abs/2603.08171

[16] IBM Maximo 和 Condition Insights 智能体：https://www.ibm.com/new/announcements/maximo-condition-insight

该作者的更多内容

ITBench-AA：前沿模型在首个面向智能体式企业 IT 任务的基准测试中得分低于 50% —— 作者：Artificial Analysis 和 IBM

正文：14

2026年5月27日

正文：Open Agent Leaderboard

正文：13

2026年5月18日

社区

编辑预览

Upload images, audio, and videos by dragging in the text input, pasting, or 点击此处.

点击或粘贴到此处以上传图片

Comment

· 注册或登录后发表评论