全部 AI 动态 · AI 热点

6月24日

16:09

16:09

berryxia@berryxia

精选

Anthropic内部工程师运行300多个自改进的agent swarm来提升系统可靠性。核心方法是给模型验证自身输出的机制，包括计划模式、动态工作流和自我检查，根据真实反馈迭代。这种闭环系统让agent从一次性工具变为能自我迭代的系统，可靠性大幅提升但token消耗更高。效果远超大多数300美元的agent课程。

技巧 Anthropic 智能体 agent 工作流自改进

推荐理由：Anthropic工程师自己怎么用agent？300个自改进swarm加闭环验证，比花300美元买课实用多了。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

13:48

13:48

AlphaSignal@AlphaSignalAI

精选

SIA论文提出将智能体视为可编辑系统，更新目标包括工具、解析器、验证器和权重。在LawBench基准上达到70.1%准确率。其CUDA内核运行仅1,017微秒，去噪任务mse_norm为0.289。论文提供公开仓库，支持选择聚焦于工具链或权重。核心结论是自改进智能体的性能取决于验证器质量。

论文 SIA LawBench 智能体自改进验证器

推荐理由：这篇SIA讲一个让智能体自己改进的方法，不只调提示，还能改工具和权重，在LawBench上做到了70.1%，代码也开源了。

6月15日

11:12

11:12

elvis@omarsar0

研究者omarsar0分享了构建自改进AI系统的经验，可以通过选择论文和方法即时创建新功能。系统能根据自生成评估决定是否保留或丢弃功能，目标是实现无需人工干预的自我维护。这一工作流展示了如何利用论文复现功能快速测试新想法。

技巧自改进 AI系统构建论文复现工作流

推荐理由：手把手教你自改进AI

11:12

11:12

arXiv cs.AI@Jianzhe Lin

论文发现验证器驱动的自DPO方法在视觉语言模型自改进中存在任务特异性问题。在MathVista、MMMU和BLINK上用开源验证器阶梯测试，同一验证器在MathVista上提升Qwen-3-VL-2B学生模型，但在MMMU上验证器准确率降至8%-23%，导致学生模型性能下降3.4-10.9个百分点。该现象在Qwen-2.5-VL-3B上复现。论文给出基于方差定理的机械论解释，指出目标任务验证器质量而非参数量才是关键。

论文 Qwen-3-VL-2B MathVista MMMU 视觉语言模型自改进

推荐理由：验证器在新任务上会拖后腿

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月28日

09:56

09:56

elvis@omarsar0

76°

Omar Sar在推文中分享了他构建的一个自改进编程代理，该代理通过简单的读写和bash命令实现自我改进。他用这个代理在24小时内完成了一个生产级应用的开发，感叹这种能力在当今是可能的。这展示了AI编程代理的潜力，能够大幅提升开发效率，甚至可能改变软件开发的方式。

AI产品编程代理自改进生产级应用 AI开发效率提升

推荐理由：Omar Sar的自改进编程代理展示了AI在软件开发中的惊人潜力，24小时构建生产级应用，做开发或AI应用的团队值得关注，可能会改变你的开发流程。