AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:技能复用×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月1日
10:23
10:23arXiv cs.LG@Zhikun Xu, Yu Feng, Jacob Dineen, Taiwei Shi, Jieyu Zhao, Ben Zhou
ReuseRL 是一种基于最小描述长度(MDL)原则的强化学习方法,旨在解决大语言模型智能体在强化学习中学习到脆弱、任务特定捷径的问题。该方法从成功轨迹中提取可复用的抽象技能字典,并通过分割成本惩罚编码效率低下的行为,从而鼓励智能体学习更通用、可压缩的行为模式。论文证明了该压缩惩罚的 PAC-Bayes 泛化界,并在 ALFWorld、TextWorld-Cooking 和 Countdown-Stepwise 等基准上,ReuseRL 在分布内和分布外任务上均优于 vanilla GRPO 和强基线方法。这项工作为提升智能体泛化能力提供了新思路,尤其适合需要跨任务迁移的 RL 场景。
论文强化学习智能体技能复用泛化MDL

推荐理由:ReuseRL 用 MDL 原则解决了智能体 RL 泛化差的痛点,做多任务智能体训练的团队可以直接参考其技能复用机制,提升模型在未见任务上的表现。
原文
5月31日
10:18
10:18marktechpost@Sana Hassan
精选
SkillNet 是一个实用框架,用于发现、安装、检查、评估和组织可复用的AI技能。本教程展示了如何利用 SkillNet 构建技能增强型AI智能体,涵盖搜索、评估、图分析和任务规划等核心功能。该框架旨在解决AI技能碎片化问题,让开发者能更高效地组合和复用技能模块。通过 SkillNet,开发者可以快速集成预构建技能,提升智能体的灵活性和可扩展性。
技巧智能体SkillNet技能复用框架任务规划

推荐理由:SkillNet 解决了AI技能复用和组合的痛点,做智能体开发的团队可以直接用它来快速集成搜索、图分析等能力,省去重复造轮子的时间。
原文
5月25日
11:12
11:12arXiv cs.AI@Zisu Huang, Jingwen Xu, Yifan Yang, Ziyang Gong, Qihao Yang, Muzhao Tian, Xiaohua Wang, Changze Lv, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Xue Yang, Dongdong Chen, Xiaoqing Zheng, Chong Luo
精选
这篇论文系统研究了语言智能体通过复用模型生成的技能(结构化程序化知识)来提升性能的全过程,涵盖经验生成、技能提取和技能消费三个阶段。研究发现,模型生成的技能平均有益,但存在显著的负迁移现象,且技能提取器和消费器的表现并不一致——一个模型可能是强提取器但弱消费者,反之亦然。技能效用与模型规模或基线任务强度无关。通过深入分析每个阶段,论文揭示了经验组成如何影响技能质量、有用技能的特征以及同一技能在不同消费者间的迁移效果。最后,作者提出了一种元技能方法,指导技能提取聚焦于实际效用相关的特征,一致提升了技能质量并大幅减少了负迁移。
论文智能体技能复用负迁移元技能语言模型

推荐理由:这篇论文为智能体技能复用提供了首个系统性评估框架,做智能体开发或研究的人可以从中了解技能提取与消费的匹配规律,避免负迁移陷阱,值得关注。
原文
精选全部日报登录