AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:技能学习×
6月24日
07:38
07:38Nous Research@NousResearch
精选
Hermes Agent 推出新指令 /learn,允许用户向其提供任意源材料(包括代码、API 文档、手册、PDF 和配置文件),Agent 会自动学习并提炼出可验证且可重复使用的技能。该功能无需手动编写技能,只需指定数据目录即可。目前通过 NousResearch 平台开放使用。
AI产品Hermes AgentNousResearch智能体技能学习

推荐理由:Hermes Agent 现在能直接从代码、文档里学技能,喂什么学什么,省去手动配置,适合开发者和团队快速复用知识。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月7日
16:05
16:05Decoder@Jonathan Kemper
精选72°
一项新研究解释了为什么大型语言模型能掌握小型模型无法学会的罕见技能。研究发现,小型模型在处理罕见任务时,频繁出现的任务会不断覆盖它们已学到的知识。研究使用了从400万到40亿参数不等的模型,详细展示了这一机制,并提出了一个实用解决方案:与其扩大模型规模,不如增加目标任务在训练数据中的出现频率。这一发现为优化模型训练提供了新思路。
论文语言模型模型规模训练数据技能学习研究

推荐理由:这项研究为AI开发者揭示了模型规模与技能学习之间的关键机制,做模型训练或数据配比的团队可以直接参考其提出的数据频率优化方案,值得关注。
原文
6月2日
12:06
12:06arXiv: Anthropic@Zelin He, Haotian Lin, Boran Han, Wei Zhu, Haoyang Fang, Bernie Wang, Xuan Zhu, Runze Li, Matthew Reimherr
ReSkill 是一种新型的智能体强化学习框架,旨在解决现有方法中技能创建与策略优化脱节的问题。它受 Anthropic 的 Skill Creator 启发,将技能创建嵌入到策略学习循环中,通过断言驱动的技能创建器、组内采样和自适应 Thompson 采样三个机制,实现技能与策略的协同进化。实验表明,ReSkill 在多个领域优于现有方法,尤其在未见任务上表现突出,能自动创建、测试、优化和淘汰技能。该工作为构建可泛化的智能体系统提供了新思路。
论文智能体强化学习技能学习策略优化ReSkill

推荐理由:做智能体强化学习的团队终于有了一个能自动积累可复用策略的框架——ReSkill 让技能创建和策略优化不再打架,直接提升泛化能力,做 RL 和 LLM 智能体的研究者值得细读。
原文
5月11日
22:16
22:16AK@_akhaliq
Skill1 提出了一种通过强化学习统一演化技能增强智能体的方法,旨在提升智能体在复杂任务中的泛化能力和学习效率。该方法将技能学习与强化学习框架结合,使智能体能够自主发现、优化和复用技能模块,从而适应多种任务场景。实验表明,Skill1 在多个基准测试中优于传统方法,尤其在长期规划和策略迁移方面表现突出。这项工作为构建更通用、更自主的智能体系统提供了新思路。
论文智能体强化学习技能学习泛化Skill1

推荐理由:这项研究为技能增强型智能体的设计与训练提供了统一的强化学习框架,路径清晰且实证有效,对推动智能体从单任务到多任务泛化具有实际参考价值。
原文
精选全部日报登录