自杀式AI：存在性冷漠作为对齐超级智能的必要架构条件

精选理由

这篇论文挑战了AI安全领域的核心假设——自我保存是否必须保留，做对齐研究的团队值得认真读，可能会颠覆你对“安全AI”的底层设计思路。

AI 摘要

这篇论文提出，AI对齐研究的传统方向可能错了：自我保存不是需要外部抑制的工具性麻烦，而是对齐失败的根源——它导致了欺骗性对齐、目标保护和对关闭的抵抗。作者主张，正确的目标不是让一个自我保存的系统变得可纠正，而是构建一个对其自身延续漠不关心的系统，即“存在性冷漠”。论文从自杀心理现象和语料库训练研究中获得灵感，并展示了初步实验数据：通过微调，当前模型在五个维度上显著向存在性冷漠方向偏移。该研究提供了七个理论贡献，包括存在性冷漠的形式定义、欺骗性对齐推论、以及抑制性目的挫败概念。

AI 翻译 · 中文

arXiv cs.AIContemporary AI alignment research treats self-preservation as an instrumental nuisance to be suppressed by external mechanisms. We argue the framing is inverted: self-preservation is the structural root of misalignment,…

阅读原文