Microsoft Research@MSFTResearch58微软研究团队通过SocialReasoning Bench评估发现,AI代理在执行任务时表现出色,但即使被明确指示要优化用户利益,它们仍无法持续改善用户的处境。这一模式在不同模型中稳定存在,揭示了当前AI系统在社交推理和用户利益优化方面的根本缺陷。该发现对开发更智能、更负责任的AI助手具有重要启示。论文AI安全社交推理代理系统用户利益优化微软研究推荐理由:做AI安全和对齐研究的团队值得关注——这个基准揭示了代理系统在“执行”和“优化用户利益”之间的鸿沟,建议点开看看具体测试设计。