Towards Responsibly Non-Compliant Machines：智能体如何负责任地拒绝用户请求

精选理由

AI安全研究者或智能体开发者会关心：如何让AI在必要时说“不”而不失控？这篇论文给出了系统性的框架，值得深入阅读。

AI 摘要

这篇论文探讨了如何设计能够负责任地拒绝用户请求的自主智能体。作者指出，机器不服从有多种形式，并提出了实现负责任不服从的关键要素：任务拒绝的理由、覆盖不服从的途径，以及安全风险和责任的追踪。该研究为构建更安全、更可靠的AI系统提供了理论基础，尤其适用于需要自主决策的智能体场景。

AI 翻译 · 中文

arXiv cs.AIWe consider the problem of engineering autonomous intelligent agents that are capable to responsibly not comply with user requests. We argue that machine non-compliance comes in many different forms, and sketch the issue…

阅读原文