论文精选

Towards Responsibly Non-Compliant Machines:智能体如何负责任地拒绝用户请求

Towards Responsibly Non-Compliant Machines

精选理由

AI安全研究者或智能体开发者会关心:如何让AI在必要时说“不”而不失控?这篇论文给出了系统性的框架,值得深入阅读。

AI 摘要

这篇论文探讨了如何设计能够负责任地拒绝用户请求的自主智能体。作者指出,机器不服从有多种形式,并提出了实现负责任不服从的关键要素:任务拒绝的理由、覆盖不服从的途径,以及安全风险和责任的追踪。该研究为构建更安全、更可靠的AI系统提供了理论基础,尤其适用于需要自主决策的智能体场景。

AI 翻译 · 中文

这篇论文探讨了如何设计能够负责任地拒绝用户请求的自主智能体。作者指出,机器不服从有多种形式,并提出了实现负责任不服从的关键要素:任务拒绝的理由、覆盖不服从的途径,以及安全风险和责任的追踪。该研究为构建更安全、更可靠的AI系统提供了理论基础,尤其适用于需要自主决策的智能体场景。

arXiv cs.AIWe consider the problem of engineering autonomous intelligent agents that are capable to responsibly not comply with user requests. We argue that machine non-compliance comes in many different forms, and sketch the issue