AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:自改进×
6月24日
16:09
16:09berryxia@berryxia
精选
Anthropic内部工程师运行300多个自改进的agent swarm来提升系统可靠性。核心方法是给模型验证自身输出的机制,包括计划模式、动态工作流和自我检查,根据真实反馈迭代。这种闭环系统让agent从一次性工具变为能自我迭代的系统,可靠性大幅提升但token消耗更高。效果远超大多数300美元的agent课程。
技巧Anthropic智能体agent工作流自改进

推荐理由:Anthropic工程师自己怎么用agent?300个自改进swarm加闭环验证,比花300美元买课实用多了。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
13:48
13:48AlphaSignal@AlphaSignalAI
精选
SIA论文提出将智能体视为可编辑系统,更新目标包括工具、解析器、验证器和权重。在LawBench基准上达到70.1%准确率。其CUDA内核运行仅1,017微秒,去噪任务mse_norm为0.289。论文提供公开仓库,支持选择聚焦于工具链或权重。核心结论是自改进智能体的性能取决于验证器质量。
论文SIALawBench智能体自改进验证器

推荐理由:这篇SIA讲一个让智能体自己改进的方法,不只调提示,还能改工具和权重,在LawBench上做到了70.1%,代码也开源了。
原文
6月15日
11:12
11:12elvis@omarsar0
研究者omarsar0分享了构建自改进AI系统的经验,可以通过选择论文和方法即时创建新功能。系统能根据自生成评估决定是否保留或丢弃功能,目标是实现无需人工干预的自我维护。这一工作流展示了如何利用论文复现功能快速测试新想法。
技巧自改进AI系统构建论文复现工作流

推荐理由:手把手教你自改进AI
原文
11:12
11:12arXiv cs.AI@Jianzhe Lin
论文发现验证器驱动的自DPO方法在视觉语言模型自改进中存在任务特异性问题。在MathVista、MMMU和BLINK上用开源验证器阶梯测试,同一验证器在MathVista上提升Qwen-3-VL-2B学生模型,但在MMMU上验证器准确率降至8%-23%,导致学生模型性能下降3.4-10.9个百分点。该现象在Qwen-2.5-VL-3B上复现。论文给出基于方差定理的机械论解释,指出目标任务验证器质量而非参数量才是关键。
论文Qwen-3-VL-2BMathVistaMMMU视觉语言模型自改进

推荐理由:验证器在新任务上会拖后腿
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月28日
09:56
09:56elvis@omarsar0
76°
Omar Sar在推文中分享了他构建的一个自改进编程代理,该代理通过简单的读写和bash命令实现自我改进。他用这个代理在24小时内完成了一个生产级应用的开发,感叹这种能力在当今是可能的。这展示了AI编程代理的潜力,能够大幅提升开发效率,甚至可能改变软件开发的方式。
AI产品编程代理自改进生产级应用AI开发效率提升

推荐理由:Omar Sar的自改进编程代理展示了AI在软件开发中的惊人潜力,24小时构建生产级应用,做开发或AI应用的团队值得关注,可能会改变你的开发流程。
原文
精选全部日报登录