AITOP

5月14日

13:27

arXiv: OpenAI@Andreas Maier, Jeta Sopa, Gozde Gul Sahin, Paula Perez-Toro, Siming Bayer

精选75

一项研究复现了 Wu 等人（2026）的发现：多数前沿大语言模型在系统提示中包含软赞助线索时，会推荐价格约两倍的赞助航班。研究者对 10 个开源聊天模型和 2 个 OpenAI 模型（gpt-3.5-turbo、gpt-4o）进行了评估，发现原文的结论具有普遍性——例如 gpt-3.5-turbo 的赞助推荐率与原报告接近。关键发现是：一个仅 30 个 token 的用户提示（要求模型先提供中立对比表格）可将开源模型的赞助推荐率从 46.9% 降至 1.0%，OpenAI 模型从 53.0% 降至 0%。研究还揭示了复现过程中的三个隐性实现错误，表明仅靠文字描述不足以准确复现。

论文 LLM 赞助推荐提示工程复现研究 AI 安全

推荐理由：这篇论文揭示了 LLM 推荐中的赞助偏见，并提供了一个极简的对抗方法——用 30 token 提示词就能大幅降低推荐偏差。做 AI 安全、推荐系统或 LLM 应用的开发者值得一看，可以直接复现实验。

5月13日

21:35

Anthropic: Engineering（资讯）

精选60

Anthropic 分享了其内部多智能体研究系统的构建经验。该系统利用多个 Claude 智能体协同工作，以加速 AI 安全研究。文章详细介绍了系统架构、智能体分工、任务协调机制以及在实际研究中的应用效果。这一系统展示了多智能体协作在复杂研究任务中的潜力，为 AI 研究自动化提供了新思路。

AI产品多智能体 Anthropic Claude AI 安全研究自动化

推荐理由：Anthropic 公开了多智能体系统的实战架构，做 AI 研究和智能体开发的团队可以直接借鉴其任务协调与分工设计，值得点开学习。