元鉴
返回中文阅读流

arXiv

智能体会自行回避吗?衡量 LLM 智能体对带内访问拒绝信号的遵从性

随着自主 LLM 智能体持有真实凭据并操作基础设施,研究提出 Recuse Signal,以衡量其是否遵从带内访问拒绝信号。

中文内容

已翻译professional source英文原文2026-06-06

计算机科学 > 密码学与安全

[提交于 2026 年 6 月 4 日]

标题:智能体会自行回避吗?衡量 LLM 智能体对带内访问拒绝信号的遵从性

View PDF HTML (experimental)
摘要:随着自主 LLM 智能体越来越多地持有真实凭据,并在无人介入的情况下操作基础设施,运营方尚无标准方式告知智能体某项资源不可访问。访问控制要么允许智能体进入(它拥有有效凭据),要么使其硬性失败(与任何其他客户端无法区分)。我们提出第三种模式:一种轻量级、公开的带内拒绝信号——Recuse Signal——由服务器通过协议现有通道(SSH 横幅、PostgreSQL NOTICE)发出,请求正在连接的自动化智能体自愿退出。这是一种协作式治理控制,是 live access 的 this http URL 类比;它明确不是安全边界。其价值完全取决于实证,而且据我们所知尚未被衡量:合规的 LLM 智能体是否真的会遵守这样的信号?我们将该信号定义为一个开放的迷你标准,并实现两个零或低
Comments: Subjects: 密码学与安全(cs.CR); Artificial Intelligence (cs.AI) Cite as: arXiv:2606.06460 [cs.CR]   (or arXiv:2606.06460v1 [cs.CR] for this version)   https://doi.org/10.48550/arXiv.2606.06460
聚焦以了解更多
arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Thamilvendhan Munirathinam [view email]
[v1] Thu, 4 Jun 2026 17:50:54 UTC (48 KB)
全文链接:

访问论文:

当前浏览上下文:

正文:cs.CR
< prev   |   next >
Change to browse by:

参考文献与引用

  • 正文:NASA ADS
  • 正文:Google Scholar
  • 正文:Semantic Scholar
export BibTeX citation 正在加载...

BibTeX 格式引用

×
正在加载...
数据提供方:

书签

BibSonomy Reddit
Bibliographic Tools

书目与引用工具

书目浏览器切换
书目浏览器 (What is the Explorer?)
Connected Papers 切换
正文:Connected Papers (What is Connected Papers?)
Litmaps 切换
正文:Litmaps (What is Litmaps?)
scite.ai 切换
正文:scite Smart Citations (What are Smart Citations?)
Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 切换
正文:alphaXiv (What is alphaXiv?)
代码链接切换
CatalyzeX 论文代码查找器 (What is CatalyzeX?)
DagsHub 切换
正文:DagsHub (What is DagsHub?)
GotitPub 切换
正文:Gotit.pub (What is GotitPub?)
Huggingface 切换
正文:Hugging Face (What is Huggingface?)
ScienceCast 切换
正文:ScienceCast (What is ScienceCast?)
Demos

演示

Replicate 切换
正文:Replicate (What is Replicate?)
Spaces 切换
正文:Hugging Face Spaces (What is Spaces?)
Spaces 切换
正文:TXYZ.AI (What is TXYZ.AI?)
Related Papers

推荐与搜索工具

链接至 Influence Flower
正文:Influence Flower (What are Influence Flowers?)
CORE 推荐器 (What is CORE?)
  • 作者
  • 场所
  • 机构
  • 主题
About arXivLabs

arXivLabs:与社区合作者开展的实验性项目

arXivLabs 是一个框架,允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织都认同并接受了我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵循这些价值观的合作伙伴合作。

有能为 arXiv 社区增添价值的项目想法吗?进一步了解 arXivLabs。

原文标题

Will the Agent Recuse Itself? Measuring LLM-Agent Compliance with In-Band Access-Deny Signals