摘要

探讨如何构建能负责任拒绝用户请求的自主智能体，涵盖拒绝理由、覆盖途径及安全风险与责任转移追踪。

计算机科学 > 人工智能

[提交于 2026 年 6 月 10 日]

标题：迈向负责任地不服从的机器

作者：Marija Slavkovik, Marie Farrell, Louise Dennis, Michael Fisher, Simon Kolker, Emily C. Collins (University of Manchester, Manchester, United Kingdom)

View PDF HTML (experimental)

摘要：我们考察如何工程化构建能够负责任地不服从用户请求的自主智能体。我们认为，机器不服从有多种不同形式，并概述在实现负责任不服从的智能机器道路上应研究的问题。我们将负责任不服从建立在任务拒绝的理由、不服从的覆盖途径，以及对安全风险和责任转移的谨慎追踪之上。

Comments: Subjects: 人工智能（cs.AI） Cite as: arXiv:2606.12147 [cs.AI] (or arXiv:2606.12147v1 [cs.AI] for this version) https://doi.org/10.48550/arXiv.2606.12147

聚焦以了解更多

arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Marija Slavkovik [view email]
[v1] Wed, 10 Jun 2026 14:38:23 UTC (112 KB)

全文链接：

访问论文：

view license

当前浏览上下文：

正文：cs.AI

< prev | next >

new | recent | 2026-06

Change to browse by:

参考文献与引用

正文：NASA ADS
正文：Google Scholar
正文：Semantic Scholar

export BibTeX citation 加载中...

BibTeX 格式引用

加载中...

数据提供方：

Bibliographic Tools

书目与引用工具

书目浏览器开关

书目浏览器 (What is the Explorer?)

Connected Papers 开关

正文：Connected Papers (What is Connected Papers?)

Litmaps 开关

正文：Litmaps (What is Litmaps?)

scite.ai 开关

正文：scite Smart Citations (What are Smart Citations?)

Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 开关

正文：alphaXiv (What is alphaXiv?)

代码链接开关

CatalyzeX 论文代码查找器 (What is CatalyzeX?)

DagsHub 开关

正文：DagsHub (What is DagsHub?)

GotitPub 开关

正文：Gotit.pub (What is GotitPub?)

Huggingface 开关

正文：Hugging Face (What is Huggingface?)

ScienceCast 开关

正文：ScienceCast (What is ScienceCast?)

Demos

演示

Replicate 开关

正文：Replicate (What is Replicate?)

Spaces 开关

正文：Hugging Face Spaces (What is Spaces?)

Spaces 开关

正文：TXYZ.AI (What is TXYZ.AI?)

arXivLabs：与社区合作者开展的实验性项目

arXivLabs 是一个框架，允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织都拥护并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观，并且只与遵循这些价值观的合作伙伴合作。

有能为 arXiv 社区增加价值的项目想法吗？了解更多 arXivLabs 信息。

迈向负责任地不服从的机器