全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

09:25

09:25

arXiv cs.AI@Chuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu

72°

Socratic-SWE 是一种新型闭环自我进化框架，它利用 LLM 驱动的软件工程智能体的历史解决追踪来生成训练信号。与传统的固定突变或漏洞注入方法不同，该框架将追踪提炼为结构化技能，总结重复失败和有效修复模式，并指导生成针对性的修复任务。通过执行验证和求解器梯度对齐奖励筛选任务，Socratic-SWE 在 SWE-bench Verified 等基准测试上经过三次迭代达到 50.40% 的准确率，持续超越同等计算预算下的自我进化基线。这表明解决追踪可作为可扩展的自我进化基础，为提升编程智能体能力提供了新路径。

论文智能体编程助手自我进化 SWE-bench LLM

推荐理由：Socratic-SWE 解决了智能体训练数据依赖人工标注的瓶颈，做 AI 编程或智能体开发的团队可以直接借鉴其闭环进化思路，提升模型在真实仓库中的修复能力。

5月27日

10:28

10:28

arXiv cs.AI@Huawei Lin, Peng Li, Jie Song, Fuxin Jiang, Tieying Zhang

精选

MUSE-Autoskill 提出了一种以技能为中心的智能体框架，让LLM智能体能够持续创建、记忆、管理和评估技能，实现自我进化。传统方法将技能视为孤立静态的产物，而该框架通过统一的技能生命周期（创建、记忆、管理、评估、优化）显著提升了技能的可复用性和可靠性。框架引入了技能级记忆，让每个技能跨任务积累经验，从而更有效地适应新场景。在SkillsBench上的实验表明，这种生命周期管理的技能能提高任务成功率、效率、复用率，甚至支持跨智能体迁移。这项工作对构建长期自主进化的AI智能体系统具有重要参考价值。

论文智能体技能管理自我进化 LLM智能体生命周期

推荐理由：做智能体开发或研究自主系统的团队，MUSE-Autoskill 给出了一个可落地的技能管理闭环——从创建到评估再到跨任务复用，值得直接参考其设计思路。

5月22日

11:01

11:01

arXiv cs.AI@Qianshu Cai, Yonggang Zhang, Xianzhang Jia, Wei Xue, Jun Song, Xinmei Tian, Yike Guo

精选

现有自主智能体系统部署后基本静态，无法从用户交互中学习，重复故障需等待人工更新修复。MOSS 提出源码级自我进化方法，直接修改智能体系统的源代码，而非仅调整文本可变的技能文件或提示配置。系统通过自动收集生产故障证据、多阶段确定性流水线生成代码修改，并在临时工作器中验证候选版本，最后通过用户同意的容器热替换实现部署。在 OpenClaw 基准测试中，MOSS 单次循环将平均评分从 0.25 提升至 0.61，无需人工干预。该方法解决了文本层无法触及的结构性故障（如路由、钩子顺序、状态不变量等），为智能体系统持续自我改进提供了更通用的框架。

论文自主智能体自我进化源码重写故障修复 OpenClaw

推荐理由：做自主智能体系统开发的团队终于有了能自动修复代码级故障的方案——MOSS 让智能体从用户交互中学习并自我改进，建议关注其源码级重写机制如何解决传统文本层无法触及的结构性问题。