世界模型碎片化：通用智能体的结构化认证

精选理由

这篇论文从理论上解决了通用智能体部署时的可靠性问题，给出了具体的误差界限和认证方法，对智能体安全研究很有参考价值。

AI 摘要

该论文证明通用智能体在大型场景下不可能具备万能能力，传统最坏情况分析无法区分关键瓶颈与无关失败。作者提出结构化认证框架，将受目标条件的性能映射到智能体内部世界模型的逐项保证。他们设计了基于深度组合目标过滤特定转换的算法，并证明在该目标下的通用智能体具有误差界为O(1/n)+O(δ)的结构化世界模型。该界限在δ较小的条件下是紧的，从而允许通过定位可靠的长时规划转换来认证部署通用智能体。

AI 翻译 · 中文

arXiv cs.AIIn the big-world regime, agents cannot be universally capable and their ability is inevitably specialized across a world model in pieces. Consequently, standard uniform guarantees fail to distinguish between the understa…

阅读原文