01:25elvis@omarsar072°微软研究院提出SkillOpt方法,将Agent的技能文档视为可训练的外部状态,通过一个优化器模型对技能文件进行验证驱动的编辑(增、删、改指令),而Agent本身保持不变。实验显示,SkillOpt在52个(模型、基准、框架)组合中表现最佳或持平,在GPT-5.5上直接聊天提升23.5分,Codex提升24.8分,Claude Code提升19.1分,且优于人类编写的技能、TextGrad等方法。该方法不增加推理成本,学到的技能可跨模型和框架迁移。论文微软研究院SkillOpt智能体技能文档优化器推荐理由:做AI Agent开发的团队常手工写技能文档但效果有限,SkillOpt用优化器自动迭代技能文件,零推理开销且效果显著,值得尝试。原文
10:49arXiv: DeepSeek@Xiaonan Xu, Wenjing Wu精选一篇来自 arXiv 的论文系统研究了技能文档的呈现粒度对大型语言模型智能体任务成功率的影响。实验基于 SkillsBench 基准,包含 30 个领域平衡的任务,测试了 GPT-5.5 和 DeepSeek V4-Flash 两种模型。结果显示,提供技能文档相比无技能条件,任务平均通过率提升 18 到 36 个百分点,效果显著。然而,技能文档的抽象程度(低抽象 vs 高抽象)以及是否包含示例对成功率的影响很小且统计上不显著。该研究表明,技能可用性是关键因素,而呈现细节的调整影响有限且依赖模型。论文LLM Agent技能文档任务成功率GPT-5.5DeepSeek V4-Flash推荐理由:做 LLM Agent 开发的团队终于有了实证依据:给智能体塞技能文档比纠结怎么写更管用。建议直接参考这个实验设计来优化自己的 RAG 或工具调用策略。原文