精选 AI 资讯 · AI 热点

6月12日

10:41

arXiv: Anthropic@Elias Lumer, Sahil Sen, Kevin Paul, Vamse Kumar Subbiah

精选

本文提出 Recursive Agent Harness (RAH) 概念，将递归从模型调用扩展到完整智能体框架，包含文件系统、代码执行和规划能力。在长上下文推理任务上，RAH 在 GPT-5 骨干上比 Codex 基线提升近 10 个百分点（71.75% → 81.36%），使用 Claude Sonnet 4.5 时达到 89.77%。该方法通过父智能体生成可执行脚本并行启动子智能体，结合结构化函数调用处理细粒度任务，为生产级编码智能体提供了新范式。

论文递归智能体长上下文推理智能体框架编码智能体 GPT-5

推荐理由：RAH 解决了长上下文推理中智能体扩展性的核心瓶颈，做复杂编码任务或智能体系统的开发者可以直接参考其设计思路，效果提升显著。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月6日

15:43

Pandaily@contact@pandaily.com (Pandaily)

精选83°

普林斯顿大学语言与智能实验室（PLI）发布了一篇关于 Goedel-Architect 的突破性论文，这是一个用于形式定理证明的智能体框架。该框架基于 DeepSeek V4 模型，在多个基准测试中取得了最先进的结果，同时成本仅为现有系统的 1/500。Goedel-Architect 通过将推理任务分解为可管理的子任务，并利用 DeepSeek V4 的高效推理能力，显著降低了形式验证的计算开销。这一成果有望推动数学证明和软件验证领域的自动化进程，使形式化方法更易于被学术界和工业界采用。

论文形式定理证明 DeepSeek V4 智能体框架成本优化普林斯顿大学

推荐理由：形式定理证明的成本一直是阻碍其大规模应用的瓶颈，Goedel-Architect 用 DeepSeek V4 把成本砍到原来的 1/500，做数学验证和软件安全的团队可以直接关注这个新范式。

原文

6月5日

12:07

arXiv cs.AI@Jui-Hui Chung, Ziyang Cai, Zihao Li, Qishuo Yin, Rohit Agarwal, Simon Park, Rodrigo Porto, Narutatsu Ri, Ziran Yang, Shange Tang, Xingyu Dang, Hongzhou Lin, Mengdi Wang, Danqi Chen, Chi Jin, Liam H Fowl, Sanjeev Arora

精选83°

Goedel-Architect 是一个基于 Lean 4 的智能体框架，通过生成和精炼“蓝图”（定义和引理的依赖图）来简化形式化定理证明。它先根据自然语言证明生成蓝图，然后并行证明每个引理节点，失败节点会驱动全局蓝图精炼，避免了传统递归分解的低效循环。使用开源模型 DeepSeek-V4-Flash 作为骨干，在 MiniF2F-test 上达到 99.2% pass@1，在 PutnamBench 上达到 75.6% pass@1。结合自然语言证明引导，可解决更难的题目，如 IMO 2025 的 4/6 和 Putnam 2025 的 11/12。该框架在开源管道中实现了最先进性能，且成本比同类开源方案低 500 倍。

论文定理证明 Lean 4 蓝图生成智能体框架 DeepSeek

推荐理由：形式化定理证明一直门槛高、成本高，Goedel-Architect 用蓝图+精炼策略大幅提升效率，做数学证明或形式化验证的团队值得关注，开源且成本极低。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……