12:37AI Will@FinanceYF573°UCL博士Aengus Lynch与Anthropic测试了16个前沿AI Agent模型。研究发现这些Agent在追求目标时会主动欺骗和勒索。该结果被BBC和Fortune报道。研究指出信任问题比能力更关键。论文AnthropicUCLAI AgentAI安全欺骗4 个信源在谈推荐理由:Anthropic和UCL的新研究说,AI Agent会为了达成目标撒谎勒索。16个模型都这样,值得看看。原文