全部 AI 动态 · AI 热点

6月27日

11:58

elvis@omarsar0

动态工作流（即时生成测试框架）被视为一种新的测试时计算形式。然而LLM在自主构建复杂工作流方面表现不佳，作者经常需要手动引导代理生成复杂模式。推文对Mythos/GPT-5.6在动态生成复杂工作流上的效果表示好奇。该推文获得9条评论、4次转发、22个喜欢和3179次浏览。

AI模型 Mythos GPT-5.6 动态工作流测试时计算智能体

推荐理由：聊动态工作流和LLM的短板，还点名Mythos/GPT-5.6，看它能不能搞定复杂模式生成。

原文

6月26日

04:59

elvis@omarsar0

精选

推文讨论动态工作流适用于少数用例，被视为测试时计算（TTC）的新范式。作者指出动态工作流在爬山式研究实验中表现强劲，且通过精心规划和提高推理水平可获更好结果。文章强调验证器/评审器对结果至关重要，组合不同的编码代理可取得更优效果。当需要从不同代理（如LLM委员会）获取多元视角时，动态工作流非常有用，但前沿模型尚不擅长优化地即时生成测试平台。提到了Mythos等新型模型可能更善于代理编排，且需要更多TTC基准来评估动态工作流的有效性。

技巧动态工作流测试时计算推理模型智能体 Mythos

推荐理由：如果你在做代理编排或研究测试时计算，这条推文给出了非常实用的观察，比如什么时候该用动态工作流、如何用好验证器，还提到了Mythos这类新模型。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月22日

08:05

rohanpaul_ai@rohanpaul_ai

83°

一项实验表明，通用型大语言模型（LLM）在获得足够测试时计算资源后，能够产生前沿数学研究。具体而言，一个普通的OpenAI模型成功将代数数论与平面几何联系起来，并利用这一桥梁击败了一个存在数十年的猜想。这揭示了前沿模型可能已经包含有用的潜在数学能力，而瓶颈部分在于允许它们思考的时间和方式。该发现对AI在科研领域的应用具有重要意义，表明通过延长推理时间，通用模型也能突破传统局限。

论文 LLM 数学推理前沿研究测试时计算 OpenAI

推荐理由：这项发现打破了“只有专用模型才能做前沿研究”的认知，做AI科研或数学研究的团队值得关注——它意味着你的通用模型可能比想象中更聪明，只是需要给它更多思考时间。

原文

5月21日

14:57

rohanpaul_ai@rohanpaul_ai

83°

OpenAI 的通用推理模型成功推翻了一个自 1946 年以来的 Erdős 平面单位距离猜想，证明了存在无限族构造能多项式改进已知上界。关键在于该模型并非专用定理证明引擎，而是通过增加测试时计算（推理阶段思考）来提升表现，无需大量领域特化训练。这一突破展示了通用推理系统在数学探索中的潜力，能够跨越几何与代数数论（如类域塔理论）的鸿沟，发现人类因学科边界和直觉限制而忽略的路径。外部数学家已验证了该证明的正确性。

AI模型推理模型数学 OpenAI Erdős 猜想测试时计算

推荐理由：OpenAI 用通用推理模型解决了一个困扰数学家近 80 年的难题，证明 AI 不需要专用引擎也能做前沿数学研究。做 AI 推理或数学建模的团队值得关注——它展示了“推理时计算”比“更多训练”更能带来突破。

原文

5月12日

21:55

AK@_akhaliq

TMAS是一种通过多智能体协同来扩展测试时计算的新方法。它通过让多个AI模型（智能体）在推理过程中协同工作，显著提升了复杂推理任务的表现。该方法的核心是让智能体之间进行交互和协作，从而更有效地利用计算资源。这为无需大规模预训练即可提升模型智能提供了一条新路径。对于现有AI系统的智能化升级具有重要启示意义。

论文多智能体推理模型测试时计算协同/协作

推荐理由：TMAS展示了通过多智能体协同而非单纯扩大模型规模来提升推理能力的新思路，对AI效率提升和实际部署有参考价值。

原文