00:01elvis@omarsar0精选OpenClaw-Skill是一种新方法,通过树搜索而非贪心蒸馏来构建代理技能库。该方法分两个迭代阶段,联合生成、识别并组合技能节点,输出结构化的技能树。与传统的扁平化单次启发式技能列表相比,它能更好地实现组合性和覆盖性。该研究基于arXiv论文2606.16774。论文OpenClaw-Skill智能体LLM技能库论文1 个信源在谈推荐理由:想给LLM代理搞技能库?OpenClaw-Skill用树搜索取代扁平堆叠,两个阶段搞定组合与覆盖,比贪心蒸馏靠谱。原文
09:42arXiv: DeepSeek@Yixuan Wang, Yiyang Zhou, Yiming Liang, Congyu Zhang, Fuxiao Liu, Jiawei Zhou, Huaxiu Yao精选72°论文提出ASSAY框架,通过随机遮蔽测量技能库中每个技能的因果贡献,发现个体技能对某些任务类型有帮助但对其他任务有害,全局筛选效果欠佳。ASSAY在AppWorld和tau-bench两个基准上,对DeepSeek-V3、GPT-4.1等7个基础模型进行测试。在AppWorld最难分岔上,DeepSeek-V3达到69.3%任务目标完成率,相对提升47.4%,超越所有已发表方法包括权重微调方法。在tau-bench零售环境中,GPT-4.1相对提升8.7%,超越o4-mini、o1和GPT-4.5。消融实验表明主要增益来自推理时按任务遮蔽技能,而非全局移除坏技能。论文ASSAYDeepSeek-V3GPT-4.1智能体技能库推荐理由:一篇教你如何让AI智能体更聪明的研究:不用改权重,光靠整理技能库就能让DeepSeek-V3和GPT-4.1冲上榜单第一,方法还开源了。原文
13:03arXiv: DeepSeek@Johannes Moll, Jean-Philippe Corbeil, Jiazhen Pan, Martin Hadamitzky, Daniel Rueckert, Lisa Adams, Keno Bressem精选72°LLM智能体在结构化环境中常因操作失败而非对话失败,其可靠性依赖于对环境的程序性知识。现有自我改进方法会累积自然语言指导,但不检查新条目是否破坏已有正确行为,导致修复一个轨迹却使另一个退化。GRASP将智能体改进视为对有限技能库的编辑序列,仅当候选技能在平衡的保留测试集上产生净改进且不超过硬回归预算时才被接受。在五个基础模型和两个临床基准上,GRASP将gpt-oss-120b从40.6%提升至88.8%,超过最强基线21.0个百分点,并提升其他模型17.2至40.3个百分点。该方法还泛化到非临床环境,且技能库可在模型间迁移,强模型技能能提升弱模型表现,反之则不行。论文LLM智能体自我改进技能库回归预算门控机制推荐理由:做LLM智能体自我改进的团队终于有了一个不担心「修好一个、搞坏一个」的方案——GRASP用硬回归预算和门控机制确保每次改进都是净收益,临床场景提升显著,建议做智能体可靠性的开发者点开看看。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
11:27arXiv cs.AI@Jiazhen Huang, Xiao Chen, Xiao Luo, Yong Dai, Senkang Hu, Yuzhi Zhao精选本文提出 Skill-Conditioned Gated Self-Distillation (SGSD) 方法,用于改进大语言模型的推理能力。传统自蒸馏方法依赖可信的先验信息(如参考答案),而 SGSD 从经验技能库中检索技能-错误对,构建多教师池,通过验证器判断教师极性,并设计门控目标函数来蒸馏有效信息。在多个数学推理基准上,SGSD 在 Qwen3-1.7B 上平均比 GRPO 提升 6.2%,比 OPSD 提升 1.7%,且对先验信息的假设更弱。代码已开源。论文推理模型自蒸馏数学推理技能库LLM推荐理由:做 LLM 推理优化的研究者可以关注——SGSD 用技能库替代参考答案作为先验,降低了蒸馏对标注数据的依赖,数学推理场景效果显著,值得在自蒸馏框架中尝试。原文