精选理由
这篇论文从理论上解决了通用智能体部署时的可靠性问题,给出了具体的误差界限和认证方法,对智能体安全研究很有参考价值。
该论文证明通用智能体在大型场景下不可能具备万能能力,传统最坏情况分析无法区分关键瓶颈与无关失败。作者提出结构化认证框架,将受目标条件的性能映射到智能体内部世界模型的逐项保证。他们设计了基于深度组合目标过滤特定转换的算法,并证明在该目标下的通用智能体具有误差界为O(1/n)+O(δ)的结构化世界模型。该界限在δ较小的条件下是紧的,从而允许通过定位可靠的长时规划转换来认证部署通用智能体。
AI 翻译 · 中文
该论文证明通用智能体在大型场景下不可能具备万能能力,传统最坏情况分析无法区分关键瓶颈与无关失败。作者提出结构化认证框架,将受目标条件的性能映射到智能体内部世界模型的逐项保证。他们设计了基于深度组合目标过滤特定转换的算法,并证明在该目标下的通用智能体具有误差界为O(1/n)+O(δ)的结构化世界模型。该界限在δ较小的条件下是紧的,从而允许通过定位可靠的长时规划转换来认证部署通用智能体。
In the big-world regime, agents cannot be universally capable and their ability is inevitably specialized across a world model in pieces. Consequently, standard uniform guarantees fail to distinguish between the understa…