07:38Nous Research@NousResearch精选Hermes Agent 推出新指令 /learn,允许用户向其提供任意源材料(包括代码、API 文档、手册、PDF 和配置文件),Agent 会自动学习并提炼出可验证且可重复使用的技能。该功能无需手动编写技能,只需指定数据目录即可。目前通过 NousResearch 平台开放使用。AI产品Hermes AgentNousResearch智能体技能学习推荐理由:Hermes Agent 现在能直接从代码、文档里学技能,喂什么学什么,省去手动配置,适合开发者和团队快速复用知识。原文
16:05Decoder@Jonathan Kemper精选72°一项新研究解释了为什么大型语言模型能掌握小型模型无法学会的罕见技能。研究发现,小型模型在处理罕见任务时,频繁出现的任务会不断覆盖它们已学到的知识。研究使用了从400万到40亿参数不等的模型,详细展示了这一机制,并提出了一个实用解决方案:与其扩大模型规模,不如增加目标任务在训练数据中的出现频率。这一发现为优化模型训练提供了新思路。论文语言模型模型规模训练数据技能学习研究推荐理由:这项研究为AI开发者揭示了模型规模与技能学习之间的关键机制,做模型训练或数据配比的团队可以直接参考其提出的数据频率优化方案,值得关注。原文
12:06arXiv: Anthropic@Zelin He, Haotian Lin, Boran Han, Wei Zhu, Haoyang Fang, Bernie Wang, Xuan Zhu, Runze Li, Matthew ReimherrReSkill 是一种新型的智能体强化学习框架,旨在解决现有方法中技能创建与策略优化脱节的问题。它受 Anthropic 的 Skill Creator 启发,将技能创建嵌入到策略学习循环中,通过断言驱动的技能创建器、组内采样和自适应 Thompson 采样三个机制,实现技能与策略的协同进化。实验表明,ReSkill 在多个领域优于现有方法,尤其在未见任务上表现突出,能自动创建、测试、优化和淘汰技能。该工作为构建可泛化的智能体系统提供了新思路。论文智能体强化学习技能学习策略优化ReSkill4 个信源在谈推荐理由:做智能体强化学习的团队终于有了一个能自动积累可复用策略的框架——ReSkill 让技能创建和策略优化不再打架,直接提升泛化能力,做 RL 和 LLM 智能体的研究者值得细读。原文
22:16AK@_akhaliqSkill1 提出了一种通过强化学习统一演化技能增强智能体的方法,旨在提升智能体在复杂任务中的泛化能力和学习效率。该方法将技能学习与强化学习框架结合,使智能体能够自主发现、优化和复用技能模块,从而适应多种任务场景。实验表明,Skill1 在多个基准测试中优于传统方法,尤其在长期规划和策略迁移方面表现突出。这项工作为构建更通用、更自主的智能体系统提供了新思路。论文智能体强化学习技能学习泛化Skill1推荐理由:这项研究为技能增强型智能体的设计与训练提供了统一的强化学习框架,路径清晰且实证有效,对推动智能体从单任务到多任务泛化具有实际参考价值。原文