全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:07

Aran Komatsuzaki (论文推介)@arankomatsuzaki

精选73°

一位研究者分享了使用 Codex 处理开放数学/物理问题的经验，发现并行智能体在需要大量顺序推理的问题上效果有限。真正的超人类能力体现在速度、知识量和可复制性上，而非瞬间解决难题。前沿物理问题比老旧的数学问题更容易被智能体处理，但研究品味仍是瓶颈。智能体擅长在给定方向后推进，但选择问题和判断方向仍需人类。

AI产品 Codex 科研自动化智能体数学推理物理研究

推荐理由：做科研自动化的开发者会看到智能体在数学/物理问题上的真实表现——不是万能 oracle，而是高效的科研劳动力，值得了解其能力边界。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月6日

08:27

rohanpaul_ai@rohanpaul_ai

Anthropic 表示其 80% 的新生产代码由 Claude 编写，标志着 AI 编程在大型科技公司中的深度应用。Google 新论文显示通用 LLM 通过规划证明和逐步检查，在形式数学任务上从低于 10% 提升至 70% 的准确率。Google 开源 Gemma 4 12B 模型，支持音频和视频分析，可在消费级 16GB GPU 上完全本地运行。阿里巴巴发布 Qwen3.7-Plus，支持文本、视频和图像输入，价格低廉但保持闭源。Anthropic 的化学报告也展示了令人惊讶的结果。

行业 Anthropic Claude Google Gemma 4 Qwen3.7-Plus AI编程数学推理开源模型

推荐理由：AI 编程和数学推理的突破正在改变开发和研究方式，做 AI 应用或数学研究的团队值得关注这些进展，尤其是 Claude 的代码生成和 Gemma 4 的本地部署能力。

原文

6月5日

16:38

AI Will@FinanceYF5

72°

Google 提出 LEAP 框架，通过将数学问题拆解为目标树，并利用 Lean 验证器的反馈进行迭代学习，显著提升了大语言模型在数学竞赛中的表现。在 Putnam 2025 测试中，模型解出了全部 12 题，正确率从 10% 提升至 70%，在 IMO 风格基准上甚至超过了专用金牌级系统 48%。该框架不改变模型本身，仅通过结构优化释放了推理潜力，为 AI 数学推理提供了新思路。

论文 LEAP框架数学推理 Lean验证器目标树 Google

推荐理由：数学竞赛和形式化验证的开发者可以关注——LEAP 用结构优化而非模型升级就实现了 7 倍正确率提升，值得在类似推理任务中尝试。

原文

6月3日

23:54

elvis@omarsar0

76°

Google 发布新研究 LEAP（Lean-Enhanced Agentic Programming），通过将通用大语言模型封装在智能体框架中，每一步都基于 Lean 编译器进行验证，并迭代利用验证器反馈。该框架使同一个通用模型解决了全部 12 道 Putnam 2025 数学竞赛题，并将 Lean-IMO-Bench 的一次性求解率从不到 10% 提升至 70%，超越了得分为 48% 的专用金牌系统。这项研究展示了定制智能体框架在数学推理任务上的巨大潜力，论文已发布在 arXiv 上。

论文智能体数学推理 Lean Google LEAP

推荐理由：做数学推理或智能体开发的团队值得关注——LEAP 用通用模型+验证反馈循环就超越了专用系统，说明智能体框架设计比模型本身更关键，建议点开论文看具体架构。

原文

5月26日

10:28

AI Will@FinanceYF5

83°

Google DeepMind发布AlphaProof Nexus论文，展示了一个AI agent在353个开放数学问题中自主解决了9个Erdős难题，其中包括两个56年未解的问题，并证明了44个OEIS猜想。每道题的推理成本仅数百美元，标志着AI在数学推理领域取得了重大突破。这项工作展示了AI agent在解决长期悬而未决的数学难题方面的潜力，为数学研究提供了新的工具和方法。

AI模型数学推理 AI agent DeepMind Erdős难题 OEIS猜想

推荐理由：数学研究者和AI爱好者值得关注：AlphaProof Nexus以极低成本自主攻克了56年未解的难题，展示了AI在数学推理上的新高度，建议点开了解具体方法和成果。

原文

5月25日

04:04

Gary Marcus@GaryMarcus

精选76°

DeepMind团队使用神经符号方法（neurosymbolic）成功解决了9个开放的Erdos问题，工作比OpenAI更细致、定量化。该方法结合了LLM和Lean证明助手，实现自主推理，仅在形式验证通过后才进行人工审核。Gary Marcus评论称，OpenAI可能因知道DeepMind即将发布而仓促推出自己的方案。这一进展展示了神经符号方法在数学推理中的潜力，也引发了关于研究竞争和严谨性的讨论。

AI模型神经符号 DeepMind Erdos问题 Lean证明助手数学推理

推荐理由：DeepMind用神经符号方法严谨解决数学难题，做AI推理或形式验证的开发者值得关注——这比纯LLM方案更可靠，也暗示了未来研究的方向。

原文

5月24日

13:04

Gary Marcus@GaryMarcus

70°

普林斯顿大学一位年轻教授在OpenAI发起的Erdos游戏挑战中，仅用3天就超越了OpenAI的表现。该游戏测试AI在数学推理上的能力，涉及Erdos数等概念。这位教授的方法基于arxiv.org/abs/2605.20579论文，展示了更高效的推理策略。

论文推理模型大模型 OpenAI Erdos游戏数学推理

推荐理由：普林斯顿教授3天反超OpenAI

原文

5月23日

06:43

rohanpaul_ai@rohanpaul_ai

76°

Google DeepMind 发表新论文，展示 AI 系统 AlphaProof Nexus 能在形式化数学证明中进行搜索，但仅限于精心约束的世界。该系统使用 Lean 证明检查器，让 LLM 不断编辑形式化证明、读取编译器错误并重试，同时维护共享的局部证明池来指导搜索。在测试中，该系统解决了 9 个 Erdős 问题和 44 个序列猜想，并协助优化、图论、代数几何和量子光学领域的问题。失败案例同样有启示性，揭示了 LLM 在数学推理中隐藏错误的方式。该工作并非实现完全数学自主，而是建立了人机协作的新分工：人类选择问题，模型提出路径，证明助手严格验证。

论文形式化证明 Lean AlphaProof Nexus 数学推理 AI 验证

推荐理由：这篇论文展示了 AI 在数学证明中的实际进展，做形式化验证或数学研究的团队值得关注——它把 LLM 从“讲故事”变成“可验证的候选生成器”，直接解决了幻觉问题。

原文

5月22日

15:16

小互@imxiaohu

精选

网易有道今日开源 Confucius4 双模型，分别专注于数学视觉推理和语音克隆任务。不同于其他公司追求参数规模，有道更注重工程精度和落地成本。开源直接提供完整权重，而非仅开放 API，降低了开发者使用门槛。数学视觉推理模型可处理几何、图表等复杂视觉数学问题，语音克隆模型则能实现高保真声音复制。此举有望推动多模态和语音技术在教育和内容创作领域的实际应用。

AI模型开源/仓库多模态语音克隆数学推理 Confucius4

推荐理由：做教育 AI 或语音应用的开发者可以直接拿到完整权重，省去从零训练的成本，建议试试这两个模型的实际效果。

原文

08:05

The Rundown AI@therundownai

OpenAI 在数学领域取得突破，破解了一个困扰学界 80 年的数学猜想，展示了 AI 在基础科学推理上的潜力。Google 的 AI Co-Scientist 系统开始进入实验室实际应用，辅助科学家进行实验设计。此外，Anthropic 推出 Claude 上下文审计功能，帮助用户了解 AI 如何理解自己的工作。Emergence 公司发起五镇 AI 对齐挑战赛，探索多智能体协作中的价值观对齐问题。本周还有 4 款新 AI 工具和社区工作流发布，值得关注。

行业 OpenAI Google AI Co-Scientist 数学推理 AI对齐

推荐理由：数学和科学研究者会看到 AI 如何从工具变成合作者——OpenAI 的突破和 Google 的实验室应用都指向同一个方向：AI 正在改变科研范式，做基础研究的团队值得跟进。

原文

08:05

rohanpaul_ai@rohanpaul_ai

83°

一项实验表明，通用型大语言模型（LLM）在获得足够测试时计算资源后，能够产生前沿数学研究。具体而言，一个普通的OpenAI模型成功将代数数论与平面几何联系起来，并利用这一桥梁击败了一个存在数十年的猜想。这揭示了前沿模型可能已经包含有用的潜在数学能力，而瓶颈部分在于允许它们思考的时间和方式。该发现对AI在科研领域的应用具有重要意义，表明通过延长推理时间，通用模型也能突破传统局限。

论文 LLM 数学推理前沿研究测试时计算 OpenAI

推荐理由：这项发现打破了“只有专用模型才能做前沿研究”的认知，做AI科研或数学研究的团队值得关注——它意味着你的通用模型可能比想象中更聪明，只是需要给它更多思考时间。

原文

5月21日

14:34

AI Will@FinanceYF5

91°

OpenAI 的 AI 模型首次自主解决了数学领域一个长达 80 年的开放问题——Erdős 1946 年提出的“平面单位距离问题”。此前学界普遍认为最优解类似网格结构，但 AI 发现了更优的新构造。这是 AI 首次在没有人类引导的情况下独立攻克数学核心开放问题，标志着 AI 在数学研究中的历史性突破。该成果展示了 AI 在复杂数学推理和模式发现方面的潜力，可能改变未来数学研究的方式。

AI模型 OpenAI 数学推理平面单位距离问题 AI 突破自主发现

推荐理由：数学研究者和 AI 爱好者会震惊——AI 首次独立解决了一个困扰人类 80 年的数学难题，这意味着 AI 不再是辅助工具，而是能自主发现新知识的伙伴。建议点开看看，见证历史。

原文

08:01

Gary Marcus@GaryMarcus

Gary Marcus 在 X 上发问，质疑一项新的数学成果究竟是结合了 Lean 等工具的神经符号方法，还是纯大语言模型（LLM）的产物。该推文引发讨论，目前有 16 条回复、3 次转发和 30 个赞，浏览量超过 6200。Marcus 的提问反映了 AI 领域对数学推理中符号系统与纯 LLM 方法优劣的持续关注。

行业 Gary Marcus 神经符号 Lean LLM 数学推理

推荐理由：Marcus 的质疑切中 AI 数学推理的核心争议——符号系统 vs 纯 LLM，关注 AI 推理能力的读者值得一看，能帮你理解当前研究的分歧点。

原文

07:59

Kevin Weil@kevinweil

菲尔兹奖得主 Timothy Gowers 在 X 上预告 AI 在数学领域取得重大突破，称数学家可能需要坐下阅读。这延续了 AI 在数学推理上的系列首次突破，暗示 AI 可能已解决重要数学问题或提出新证明。Gowers 的参与增加了事件可信度，引发学界广泛关注。具体细节待进一步披露。

AI模型 AI 数学 Timothy Gowers 数学推理 AI 突破菲尔兹奖

推荐理由：菲尔兹奖得主亲自预告 AI 数学突破，做数学研究或关注 AI 推理能力的读者值得关注后续细节。

原文

07:59

Ethan Mollick@emollick

72°

2024年6月，通用大模型连草莓里有多少个r都数不清；2025年7月，最新模型已在国际数学奥林匹克竞赛中获得金牌；到2026年5月，模型甚至解决了组合几何中一个著名难题。这一系列对比展示了LLM在数学推理能力上的飞速进步，从基础计数到顶尖竞赛再到前沿研究，仅用两年时间。

AI模型 LLM 数学推理 IMO金牌组合几何能力进化

推荐理由：数学推理是AI能力的硬指标，从数不清草莓到IMO金牌再到解决几何难题，这个时间线让所有关注AI能力边界的开发者震撼——建议点开看看，你会对模型进化速度有全新认知。

原文

07:48

Greg Brockman@gdb

91°

OpenAI的一个模型在数学领域取得重大突破，自主推翻了一个自1946年由Paul Erdős提出的离散几何核心猜想——平面单位距离问题。近80年来，数学家们一直认为最优解近似于方形网格，但该模型发现了一类全新的、表现更优的构造。这是AI首次自主解决一个数学领域的著名开放问题，标志着AI在数学研究中的里程碑式进展。

论文 OpenAI 数学推理离散几何开放问题 AI突破

推荐理由：数学家和AI研究者会震惊——AI第一次独立解决了困扰人类80年的核心猜想，这不仅是数学的突破，更是AI推理能力的质变，值得所有关注AI前沿的人点开。

原文

07:43

Sam Altman@sama

83°

OpenAI CEO Sam Altman在X上宣布，一个通用模型成功解决了一个数学领域的重大开放问题，他认为这是AI发展的重要里程碑。Altman表示，虽然他对AI扩展人类对世界的理解感到兴奋，但今天心情复杂。菲尔兹奖得主Timothy Gowers提醒数学家们坐稳再看详情。这一事件标志着通用AI在数学推理上取得突破性进展。

AI模型通用模型数学推理重大突破 Sam Altman Timothy Gowers

推荐理由：数学家和AI研究者都会震惊——通用模型攻克了人类长期未解的数学难题，这不仅是技术突破，更可能改变数学研究范式。建议点开看看具体是哪个问题被解决。

原文