09:42arXiv: DeepSeek@Yixuan Wang, Yiyang Zhou, Yiming Liang, Congyu Zhang, Fuxiao Liu, Jiawei Zhou, Huaxiu Yao精选72°论文提出ASSAY框架,通过随机遮蔽测量技能库中每个技能的因果贡献,发现个体技能对某些任务类型有帮助但对其他任务有害,全局筛选效果欠佳。ASSAY在AppWorld和tau-bench两个基准上,对DeepSeek-V3、GPT-4.1等7个基础模型进行测试。在AppWorld最难分岔上,DeepSeek-V3达到69.3%任务目标完成率,相对提升47.4%,超越所有已发表方法包括权重微调方法。在tau-bench零售环境中,GPT-4.1相对提升8.7%,超越o4-mini、o1和GPT-4.5。消融实验表明主要增益来自推理时按任务遮蔽技能,而非全局移除坏技能。论文ASSAYDeepSeek-V3GPT-4.1智能体技能库推荐理由:一篇教你如何让AI智能体更聪明的研究:不用改权重,光靠整理技能库就能让DeepSeek-V3和GPT-4.1冲上榜单第一,方法还开源了。原文
10:11arXiv: DeepSeek@Megan Frisella, Shubham Tiwari, Andy Ruan, Yi Pan, Parker Gustafson, Mat Jacob, Gilbert Bernstein, Stephanie Wang精选Piper 是一种用户可控的分布式训练系统,通过将训练策略与运行时实现解耦,解决了现有系统难以适应新策略或集成先进策略的问题。用户只需通过少量模型注释和调度指令声明训练策略,系统自动编译为设备执行计划。Piper 使用统一中间表示(IR)表示所有计算和通信,支持数据、流水线、专家并行及 ZeRO 等优化。实验表明,Piper 在常见策略上保持性能,同时通过联合调度计算和通信(如 DeepSeek-V3 的 DualPipe)实现额外性能与内存效率提升。论文分布式训练并行策略中间表示ZeRODeepSeek-V3推荐理由:Piper 解决了分布式训练中策略与实现绑定的痛点,做大规模模型训练或并行策略研究的开发者可以直接用这套框架灵活组合新策略,省去手动调优的麻烦。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
12:38arXiv: DeepSeek@Ali Şenol, Garima Agrawal, Huan Liu精选当前LLM评估主要依赖最终答案正确率,忽略了推理过程的质量。本研究提出一个多维度行为框架,从正确性、一致性、鲁棒性、逻辑连贯性、效率和稳定性六个维度衡量推理质量。实验发现,逻辑连贯性与正确性正交(r=-0.172),即正确答案可能来自不连贯推理。该框架还暴露了排名反转:DeepSeek-V3在准确率优先下排名第二,但在法律/合规权重下排名第五。该框架为模型部署决策提供了更全面的信号,特别适用于需要审计推理过程的场景。论文推理模型评估框架逻辑连贯性模型审计DeepSeek-V3推荐理由:这个框架解决了「只看答案正确率」的评估盲区,做模型选型或合规审计的团队会发现,原来高分模型可能推理过程一团糟——建议点开看看你的模型在哪个维度翻车。原文