全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:41

10:41

arXiv: Anthropic@Elias Lumer, Sahil Sen, Kevin Paul, Vamse Kumar Subbiah

精选

本文提出 Recursive Agent Harness (RAH) 概念，将递归从模型调用扩展到完整智能体框架，包含文件系统、代码执行和规划能力。在长上下文推理任务上，RAH 在 GPT-5 骨干上比 Codex 基线提升近 10 个百分点（71.75% → 81.36%），使用 Claude Sonnet 4.5 时达到 89.77%。该方法通过父智能体生成可执行脚本并行启动子智能体，结合结构化函数调用处理细粒度任务，为生产级编码智能体提供了新范式。

论文递归智能体长上下文推理智能体框架编码智能体 GPT-5

推荐理由：RAH 解决了长上下文推理中智能体扩展性的核心瓶颈，做复杂编码任务或智能体系统的开发者可以直接参考其设计思路，效果提升显著。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

12:07

12:07

arXiv cs.AI@Jui-Hui Chung, Ziyang Cai, Zihao Li, Qishuo Yin, Rohit Agarwal, Simon Park, Rodrigo Porto, Narutatsu Ri, Ziran Yang, Shange Tang, Xingyu Dang, Hongzhou Lin, Mengdi Wang, Danqi Chen, Chi Jin, Liam H Fowl, Sanjeev Arora

精选83°

Goedel-Architect 是一个基于 Lean 4 的智能体框架，通过生成和精炼“蓝图”（定义和引理的依赖图）来简化形式化定理证明。它先根据自然语言证明生成蓝图，然后并行证明每个引理节点，失败节点会驱动全局蓝图精炼，避免了传统递归分解的低效循环。使用开源模型 DeepSeek-V4-Flash 作为骨干，在 MiniF2F-test 上达到 99.2% pass@1，在 PutnamBench 上达到 75.6% pass@1。结合自然语言证明引导，可解决更难的题目，如 IMO 2025 的 4/6 和 Putnam 2025 的 11/12。该框架在开源管道中实现了最先进性能，且成本比同类开源方案低 500 倍。

论文定理证明 Lean 4 蓝图生成智能体框架 DeepSeek

推荐理由：形式化定理证明一直门槛高、成本高，Goedel-Architect 用蓝图+精炼策略大幅提升效率，做数学证明或形式化验证的团队值得关注，开源且成本极低。