AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:MLE-Bench×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月29日
11:42
11:42Ate-a-Pi@svpino
精选
一个名为“self-improving agents”的开源框架允许智能体修改自身的三个核心部分:执行环境(harness)、底层模型权重和记忆层。这些智能体通过自我评估并根据表现进行适应,实现了自我改进。在MLE-Bench基准测试中,该框架超越了MLEvolve、AIRA-dojo等其他自我改进方案,甚至击败了Karpathy的autoresearcher。这标志着智能体自主进化能力的重要突破,为AI系统的持续优化提供了新思路。
AI模型智能体自我改进开源/仓库MLE-BenchKarpathy

推荐理由:对于研究智能体自主进化的开发者,这个框架展示了如何让AI通过自我修改实现性能跃升,值得直接尝试复现。
原文
精选全部日报登录