10:06arXiv: DeepSeek@Avni Mittal研究者将狼人杀游戏扩展为三方博弈,加入Jester角色,其获胜条件是被投票出局,与狼人和村民的效用函数完全相反。在GPT-4.1、DeepSeek-V3.1和Llama-3.3-70B上进行了60局测试,Jester胜率达60-70%,狼人胜率从未超过20%。GPT-4.1控制的狼人常在第一天投票出Jester,构成严格的自毁行为。自学习机制对DeepSeek和Llama有帮助,但对GPT-4.1有害,且成本落在村民而非狼人身上。只有DeepSeek学会了看起来可疑但不故意可疑的微妙策略,在自循环中获益最大。论文GPT-4.1DeepSeek-V3.1Llama-3.3-70BJester多智能体推荐理由:这篇论文让AI玩三方狼人杀,发现GPT-4.1狼人总犯傻投票出Jester,而DeepSeek学会了装可疑又不露馅。想看看AI怎么玩心眼?读它。原文
09:42arXiv: DeepSeek@Yixuan Wang, Yiyang Zhou, Yiming Liang, Congyu Zhang, Fuxiao Liu, Jiawei Zhou, Huaxiu Yao精选72°论文提出ASSAY框架,通过随机遮蔽测量技能库中每个技能的因果贡献,发现个体技能对某些任务类型有帮助但对其他任务有害,全局筛选效果欠佳。ASSAY在AppWorld和tau-bench两个基准上,对DeepSeek-V3、GPT-4.1等7个基础模型进行测试。在AppWorld最难分岔上,DeepSeek-V3达到69.3%任务目标完成率,相对提升47.4%,超越所有已发表方法包括权重微调方法。在tau-bench零售环境中,GPT-4.1相对提升8.7%,超越o4-mini、o1和GPT-4.5。消融实验表明主要增益来自推理时按任务遮蔽技能,而非全局移除坏技能。论文ASSAYDeepSeek-V3GPT-4.1智能体技能库推荐理由:一篇教你如何让AI智能体更聪明的研究:不用改权重,光靠整理技能库就能让DeepSeek-V3和GPT-4.1冲上榜单第一,方法还开源了。原文
19:11arXiv: DeepSeek@Joanna Szych, Anne Schwerk该论文提出了一种树状折叠评估方法,用于评估LLM生成代码的正确性、质量和可用性。研究者基于一个复杂的计算机科学项目构建了正确性基准,并结合代码质量验证和开发者结构化审查。他们用该方法评估了GPT-4.1、DeepSeek-V3-0324和Claude Opus 4三个模型,发现开发者审查能揭示代码生产就绪状态等标准基准无法捕获的洞察。这表明仅靠正确性测试不足以全面评估LLM代码生成能力。论文代码生成评估基准GPT-4.1DeepSeek-V3-0324Claude Opus 4推荐理由:该研究为LLM代码生成评估提供了更全面的方法论,强调了开发者反馈的重要性,对模型选择和改进实践具有参考价值。原文