10:06arXiv: DeepSeek@Avni Mittal研究者将狼人杀游戏扩展为三方博弈,加入Jester角色,其获胜条件是被投票出局,与狼人和村民的效用函数完全相反。在GPT-4.1、DeepSeek-V3.1和Llama-3.3-70B上进行了60局测试,Jester胜率达60-70%,狼人胜率从未超过20%。GPT-4.1控制的狼人常在第一天投票出Jester,构成严格的自毁行为。自学习机制对DeepSeek和Llama有帮助,但对GPT-4.1有害,且成本落在村民而非狼人身上。只有DeepSeek学会了看起来可疑但不故意可疑的微妙策略,在自循环中获益最大。论文GPT-4.1DeepSeek-V3.1Llama-3.3-70BJester多智能体推荐理由:这篇论文让AI玩三方狼人杀,发现GPT-4.1狼人总犯傻投票出Jester,而DeepSeek学会了装可疑又不露馅。想看看AI怎么玩心眼?读它。原文
09:42arXiv: DeepSeek@Yixuan Wang, Yiyang Zhou, Yiming Liang, Congyu Zhang, Fuxiao Liu, Jiawei Zhou, Huaxiu Yao精选72°论文提出ASSAY框架,通过随机遮蔽测量技能库中每个技能的因果贡献,发现个体技能对某些任务类型有帮助但对其他任务有害,全局筛选效果欠佳。ASSAY在AppWorld和tau-bench两个基准上,对DeepSeek-V3、GPT-4.1等7个基础模型进行测试。在AppWorld最难分岔上,DeepSeek-V3达到69.3%任务目标完成率,相对提升47.4%,超越所有已发表方法包括权重微调方法。在tau-bench零售环境中,GPT-4.1相对提升8.7%,超越o4-mini、o1和GPT-4.5。消融实验表明主要增益来自推理时按任务遮蔽技能,而非全局移除坏技能。论文ASSAYDeepSeek-V3GPT-4.1智能体技能库推荐理由:一篇教你如何让AI智能体更聪明的研究:不用改权重,光靠整理技能库就能让DeepSeek-V3和GPT-4.1冲上榜单第一,方法还开源了。原文
02:22Decoder@Jonathan Kemper精选72°微软研究院推出Lens,一个仅3.8B参数的文本到图像模型,在基准测试中匹配更大模型,训练成本大幅降低。其关键创新是使用GPT-4.1生成的8亿条详细图像描述,而非模糊的网页替代文本。代码和权重已开源。这表明高质量标注比模型规模更重要。AI模型图像生成微软LensGPT-4.1开源/仓库推荐理由:做图像生成模型训练或研究的团队,可以借鉴Lens用详细标注替代规模扩张的思路,直接复用其开源代码和权重,能大幅降低训练成本。原文
10:13Guillermo Rauch@rauchgVercel CEO 分享了一个全栈智能体应用 Caltext 的示例,这是一个在 iMessage 中追踪卡路里的开源工具。它利用 GPT-4.1 vision 识别食物图片,结合 USDA 数据库自动计算卡路里。技术栈包括 Bun、Turborepo、Hono、Chat SDK、AI SDK 和 Upstash Redis。该项目展示了如何用现代工具链快速构建实用 AI 应用,是学习全栈智能体开发的优质材料。AI产品智能体全栈开发开源/仓库GPT-4.1Vercel推荐理由:想学全栈智能体开发的人可以直接看这个真实项目——从消息界面到 AI 视觉识别再到数据库,一条龙展示,比看教程更直观。原文
19:11arXiv: DeepSeek@Joanna Szych, Anne Schwerk该论文提出了一种树状折叠评估方法,用于评估LLM生成代码的正确性、质量和可用性。研究者基于一个复杂的计算机科学项目构建了正确性基准,并结合代码质量验证和开发者结构化审查。他们用该方法评估了GPT-4.1、DeepSeek-V3-0324和Claude Opus 4三个模型,发现开发者审查能揭示代码生产就绪状态等标准基准无法捕获的洞察。这表明仅靠正确性测试不足以全面评估LLM代码生成能力。论文代码生成评估基准GPT-4.1DeepSeek-V3-0324Claude Opus 4推荐理由:该研究为LLM代码生成评估提供了更全面的方法论,强调了开发者反馈的重要性,对模型选择和改进实践具有参考价值。原文