12:35Mark Chen (OpenAI 研究)@markchen90英国 AI 安全研究所(UK AISI)发布了一项针对前沿模型的长时智能体能力评估,测试了模型在复杂、多步骤任务中的自主执行能力。结果显示,Claude 5.5 与 Mythos 在该评估中表现相似,均展现出较高的智能体能力。该评估强调了前沿模型在长期自主任务中可能带来的风险,但同时也指出通过有效的缓解措施,可以安全地部署这些模型供用户使用。这一测试对于理解模型在实际应用中的安全边界具有重要意义。AI模型Claude 5.5Mythos智能体AI 安全长时任务1 个信源在谈推荐理由:UK AISI 的这项评估直接关系到前沿模型的安全部署,做 AI 安全或智能体开发的团队值得关注——它揭示了长时任务中的真实风险,也展示了缓解措施的有效性。原文