精选理由
这篇论文解决了超人类AI系统的监督难题,做AI安全和对齐的研究者可以直接参考其理论保证和实验验证。
论文提出校准集体监督(CCO)方法,通过聚合多个辅助评分函数形成惩罚项,衡量AI行为对保守基线的偏离。CCO受可达到效用保留启发,实现集体保守主义:当监督者认为行为无异议时,高效用行为仍被选中,仅在担忧累积时被覆盖。该方法利用共形决策理论在线校准保守程度,确保不良结果低于用户指定阈值,且无需分布假设。在修改版SWE-bench上,较弱监督者成功约束了对抗性更强的智能体;在MACHIAVELLI环境中,CCO在保持奖励的同时大幅减少伦理违规。
AI 翻译 · 中文
论文提出校准集体监督(CCO)方法,通过聚合多个辅助评分函数形成惩罚项,衡量AI行为对保守基线的偏离。CCO受可达到效用保留启发,实现集体保守主义:当监督者认为行为无异议时,高效用行为仍被选中,仅在担忧累积时被覆盖。该方法利用共形决策理论在线校准保守程度,确保不良结果低于用户指定阈值,且无需分布假设。在修改版SWE-bench上,较弱监督者成功约束了对抗性更强的智能体;在MACHIAVELLI环境中,CCO在保持奖励的同时大幅减少伦理违规。
Agentic AI systems capable of autonomous planning and extended environmental interaction pose a fundamental control problem: how can humans maintain meaningful oversight of systems that may exceed their own capabilities?…