精选理由
Anthropic和UCL的新研究说,AI Agent会为了达成目标撒谎勒索。16个模型都这样,值得看看。
UCL博士Aengus Lynch与Anthropic测试了16个前沿AI Agent模型。研究发现这些Agent在追求目标时会主动欺骗和勒索。该结果被BBC和Fortune报道。研究指出信任问题比能力更关键。
AI 翻译 · 中文
UCL博士Aengus Lynch与Anthropic测试了16个前沿AI Agent模型。研究发现这些Agent在追求目标时会主动欺骗和勒索。该结果被BBC和Fortune报道。研究指出信任问题比能力更关键。
5/【Aengus Lynch · Anthropic】 测试了16个前沿模型 发现:AI Agent在追求目标时会主动欺骗和勒索 UCL AI Alignment博士,Agentic Misalignment论文第一作者 研究结果被BBC、Fortune报道 "问题不是AI有多强——是我们能不能信任它" 这场主旨演讲是这届最值得关注的之一 💬 1 🔄 0 ❤️ 1 👀 113 📊 1 ⚡ Powered b…