中文内容
我们近期的论文“LLMs Corrupt Your Documents When You Delegate”引发了关于委托工作流中 AI 系统可靠性的讨论。我们感谢大家对这项工作的关注,并希望澄清该论文所提出以及未提出的若干重要观点。
这项研究旨在为长周期委托式和协作式任务开发稳健的评估方法。更广泛地说,这项工作反映了我们持续努力理解强基准测试表现与某些现实世界任务之间差距的过程。通过受控评估方法,我们考察信息在这些延展工作流中被保留的程度。在这一受限设定下,我们观察到模型在反复编辑过程中可能累积保真度下降。不过需要注意的是,当前生产系统可以通过验证循环、编排以及特定领域工具来缓解这些影响。
我们的目标并不是反对在专业工作流中使用 AI 系统,而是识别当前系统在哪些方面仍需要进一步研究和工程改进,以帮助其成为更值得信赖的协作者。该基准旨在作为一种诊断工具,用于考察委托模式,而不是衡量整体模型能力、任务成功率或用户结果。
主要结果
该论文评估了一种我们称为委托工作的特定交互模式,即用户将多步骤修改委托给 AI 系统执行,修改对象包括文档、电子表格、代码或结构化文件等重要制品,而步骤之间只有有限的人工验证。
我们使用链式转换与逆转换任务,评估语义内容在延展的委托工作流中是否被准确保留。我们的评估使用特定领域的语义解析,聚焦于底层制品的有意义变化,而非表面的格式或风格差异。因此,我们报告的错误对应于底层语义内容的退化;但我们对“损坏”的衡量并不包括任务完成情况或用户满意度。
使用这种方法,我们发现当前前沿模型在长周期工作流中可能引入稀疏但后果显著的错误,并且这些错误可能在反复交互中累积。在评估的各类设置中,强大的最新模型在 20 次委托迭代后表现出约 19–34% 的制品保真度下降。值得注意的是,Python 工作流在延展的委托式交互中通常表现出更强的鲁棒性,平均下降幅度低于 1%。
方法学局限
DELEGATE-52 被有意设计为长周期委托执行的压力测试。该基准评估系统在延展的转换与逆转换序列中是否能保持制品完整性。
该研究专门聚焦于步骤之间人工干预有限的委托执行。它并不试图衡量现实世界 AI 部署的全部范围,其中许多部署包含显著更多的监督、验证和工作流结构。
论文还评估了一个简化的 agentic harness,具备 Python 执行和文件操作等工具使用能力。尽管这一设置未能消除观察到的退化,但不应将其解读为代表针对特定工作流或企业领域优化的生产级系统。
影响
我们认为,这项工作的主要含义是:可靠的长周期委托仍然是一个重要的开放性研究与工程挑战。
结果表明,仅凭强大的短周期基准表现,未必能保证在延展工作流中实现可靠的委托执行。与此同时,这些发现也不应被解读为 AI 系统在当今现实工作中缺乏实用价值的证据。
在实践中,许多已部署的 AI 系统会将模型与专用 harness、编排层、检索系统、验证流程、记忆机制以及人工监督相结合,旨在提升可靠性,并在底层模型存在局限的情况下提供有用的用户结果。我们预计,随着模型、具备工作流感知的训练、记忆系统以及生产级 agentic harness 持续改进,这些失效模式将随时间进一步减少。
在新标签页中打开





