00:57rohanpaul_ai@rohanpaul_ai精选Adaline 发布了一个自我改进层,能将 AI 智能体的生产痕迹转化为新的评估、合成边缘案例和更好的候选智能体。该工具读取生产流量和用户反馈,将混乱的对话聚类为可识别的智能体行为,无需人工逐一检查。它还能生成人类从未考虑过的评估,帮助提升智能体性能。AI产品Adaline智能体评估生产流量自我改进推荐理由:自动从生产数据生成评估,省去人工排查原文
05:40rohanpaul_ai@rohanpaul_ai精选一篇论文提出 SIA(自我改进 AI)框架,让 AI 通过观察任务代理的表现,自动调整外部设置(如提示、工具、重试规则)或更新模型权重(通过 LoRA 适配器)。在三个差异极大的任务(中文法律罪名分类、GPU 内核速度调优、单细胞 RNA 去噪)上,结合设置与权重更新的版本均优于仅改进设置的方法。这表明,除了优化提示和工具,让模型通过任务反馈学习模式能带来额外提升。论文自我改进LoRA任务代理自动化AI 研究推荐理由:这项研究解决了 AI 自我改进依赖人工调参的瓶颈,做自动化 Agent 或模型微调的团队值得关注——SIA 的 LoRA 更新思路能低成本让模型学会任务模式,比只改提示更有效。原文
08:24elvis@omarsar0精选72°本周一篇突出的人工智能论文探讨了自我改进智能体是否真正发现新知识,还是仅仅在已有知识中检索或组合。作者将智能体的行为分为三类:检索(查找已有信息)、搜索(以新方式组合工具)和发现(发明新概念)。他们通过范畴论和左 Kan 扩展定义了一个数学框架,判断智能体是否产生了真正的新结果。论文构建了一个 Builder/Breaker 智能体研究蛋白质力学,其拟合精度虽下降,但覆盖了更难的蛋白质,数据量增长近 10 倍而代码仅增长 1.3 倍,表明真正的科学进步是压缩更多世界知识到更少代码中。该研究为智能体提供了更清晰的成功信号,避免仅优化准确率而陷入简单基准。论文智能体自我改进发现蛋白质力学论文推荐理由:做智能体自我改进的开发者,这篇论文戳破了「准确率越高越好」的幻觉,给出了衡量真正发现的新标准,值得仔细读一读。原文
16:52elvis@omarsar0精选一位开发者预言,未来几个月人们将意识到 MCP(模型上下文协议)对智能体的根本重要性。MCP 的价值不仅在于连接工具,更在于它启用的抽象能力,例如通过智能体间交互实现自我改进系统。该开发者的整个编排器通过 MCP 工具实现了复杂交互、版本控制、评估工作流等。他认为 MCP 协议本身对未来所有进展至关重要,且很高兴大部分是开源的。AI产品MCP/工具智能体协议开源/仓库自我改进推荐理由:MCP 正在从工具连接协议进化为智能体自我改进的基础设施,做智能体编排和自动化系统的开发者值得关注这个趋势。原文
13:03arXiv: DeepSeek@Johannes Moll, Jean-Philippe Corbeil, Jiazhen Pan, Martin Hadamitzky, Daniel Rueckert, Lisa Adams, Keno Bressem精选72°LLM智能体在结构化环境中常因操作失败而非对话失败,其可靠性依赖于对环境的程序性知识。现有自我改进方法会累积自然语言指导,但不检查新条目是否破坏已有正确行为,导致修复一个轨迹却使另一个退化。GRASP将智能体改进视为对有限技能库的编辑序列,仅当候选技能在平衡的保留测试集上产生净改进且不超过硬回归预算时才被接受。在五个基础模型和两个临床基准上,GRASP将gpt-oss-120b从40.6%提升至88.8%,超过最强基线21.0个百分点,并提升其他模型17.2至40.3个百分点。该方法还泛化到非临床环境,且技能库可在模型间迁移,强模型技能能提升弱模型表现,反之则不行。论文LLM智能体自我改进技能库回归预算门控机制推荐理由:做LLM智能体自我改进的团队终于有了一个不担心「修好一个、搞坏一个」的方案——GRASP用硬回归预算和门控机制确保每次改进都是净收益,临床场景提升显著,建议做智能体可靠性的开发者点开看看。原文
11:42Ate-a-Pi@svpino精选一个名为“self-improving agents”的开源框架允许智能体修改自身的三个核心部分:执行环境(harness)、底层模型权重和记忆层。这些智能体通过自我评估并根据表现进行适应,实现了自我改进。在MLE-Bench基准测试中,该框架超越了MLEvolve、AIRA-dojo等其他自我改进方案,甚至击败了Karpathy的autoresearcher。这标志着智能体自主进化能力的重要突破,为AI系统的持续优化提供了新思路。AI模型智能体自我改进开源/仓库MLE-BenchKarpathy推荐理由:对于研究智能体自主进化的开发者,这个框架展示了如何让AI通过自我修改实现性能跃升,值得直接尝试复现。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……