11:58elvis@omarsar0动态工作流(即时生成测试框架)被视为一种新的测试时计算形式。然而LLM在自主构建复杂工作流方面表现不佳,作者经常需要手动引导代理生成复杂模式。推文对Mythos/GPT-5.6在动态生成复杂工作流上的效果表示好奇。该推文获得9条评论、4次转发、22个喜欢和3179次浏览。AI模型MythosGPT-5.6动态工作流测试时计算智能体推荐理由:聊动态工作流和LLM的短板,还点名Mythos/GPT-5.6,看它能不能搞定复杂模式生成。原文
04:59elvis@omarsar0精选推文讨论动态工作流适用于少数用例,被视为测试时计算(TTC)的新范式。作者指出动态工作流在爬山式研究实验中表现强劲,且通过精心规划和提高推理水平可获更好结果。文章强调验证器/评审器对结果至关重要,组合不同的编码代理可取得更优效果。当需要从不同代理(如LLM委员会)获取多元视角时,动态工作流非常有用,但前沿模型尚不擅长优化地即时生成测试平台。提到了Mythos等新型模型可能更善于代理编排,且需要更多TTC基准来评估动态工作流的有效性。技巧动态工作流测试时计算推理模型智能体Mythos推荐理由:如果你在做代理编排或研究测试时计算,这条推文给出了非常实用的观察,比如什么时候该用动态工作流、如何用好验证器,还提到了Mythos这类新模型。原文
10:33arXiv cs.LG@Junshu Sun, Wanxing Chang, Qingming Huang, Shuhui Wang本文提出AdaR,一种自适应递归图模型,解决预训练图模型与固定架构不匹配问题。理论分析证明步骤依赖是自适应递归收敛的充要条件。AdaR通过编码归一化步骤信息和表示-目标关系实现自适应推理,并利用梯度监督信号确保递归收敛。在归纳和直推设置下,AdaR在多项图学习中优于现有强基线模型。AI模型AdaR图学习测试时计算自适应推理递归图模型推荐理由:AdaR让图模型在测试时自己调整推理步数,不用重新训练,效果比传统图神经网络好。原文
11:28arXiv cs.AI@Jadelynn Dao, Milan Ganai, Yasmina Abukhadra, Ajay Sridhar, Mozhgan Nasr Azadani, Katie Luo, Clark Barrett, Jiajun Wu, Chelsea Finn, Marco Pavone精选72°DIRECT 是一个路由框架,利用多模态场景上下文为每个提示分配测试时计算资源,以改善成功-成本帕累托前沿。研究发现,在链式思维深度、模型大小和记忆历史三个缩放轴上,测试时计算并非均匀杠杆,不同轴带来不同能力增益。在 VLABench 和 RoboMME 上的实验表明,DIRECT 在物理 Franka 机械臂上匹配或超越更强模型的成功率,同时平均延迟降低高达 65%。该工作揭示了朴素缩放测试时计算的浪费性,为具身代理的部署提供了更高效的方案。论文具身智能测试时计算路由框架VLM机器人规划推荐理由:DIRECT 解决了具身规划中测试时计算资源浪费的问题,做机器人部署和 VLM 应用的团队可以直接参考其路由策略,在降低成本的同时保持性能。原文
08:05rohanpaul_ai@rohanpaul_ai83°一项实验表明,通用型大语言模型(LLM)在获得足够测试时计算资源后,能够产生前沿数学研究。具体而言,一个普通的OpenAI模型成功将代数数论与平面几何联系起来,并利用这一桥梁击败了一个存在数十年的猜想。这揭示了前沿模型可能已经包含有用的潜在数学能力,而瓶颈部分在于允许它们思考的时间和方式。该发现对AI在科研领域的应用具有重要意义,表明通过延长推理时间,通用模型也能突破传统局限。论文LLM数学推理前沿研究测试时计算OpenAI7 个信源在谈推荐理由:这项发现打破了“只有专用模型才能做前沿研究”的认知,做AI科研或数学研究的团队值得关注——它意味着你的通用模型可能比想象中更聪明,只是需要给它更多思考时间。原文
14:57rohanpaul_ai@rohanpaul_ai83°OpenAI 的通用推理模型成功推翻了一个自 1946 年以来的 Erdős 平面单位距离猜想,证明了存在无限族构造能多项式改进已知上界。关键在于该模型并非专用定理证明引擎,而是通过增加测试时计算(推理阶段思考)来提升表现,无需大量领域特化训练。这一突破展示了通用推理系统在数学探索中的潜力,能够跨越几何与代数数论(如类域塔理论)的鸿沟,发现人类因学科边界和直觉限制而忽略的路径。外部数学家已验证了该证明的正确性。AI模型推理模型数学OpenAIErdős 猜想测试时计算10 个信源在谈推荐理由:OpenAI 用通用推理模型解决了一个困扰数学家近 80 年的难题,证明 AI 不需要专用引擎也能做前沿数学研究。做 AI 推理或数学建模的团队值得关注——它展示了“推理时计算”比“更多训练”更能带来突破。原文
11:55arXiv cs.LG@Benhao Huang, Zhengyang Geng, Zico Kolter精选Equilibrium Reasoners (EqR) 是一种新的推理框架,通过将推理过程建模为学习任务条件吸引子(latent dynamical systems)来实现可扩展的测试时计算。该框架无需外部验证器或任务特定先验,通过增加迭代深度(更多步数)和广度(聚合多个随机轨迹)来提升性能。实验表明,测试时计算的增益与向解对齐吸引子的收敛程度紧密相关。在 Sudoku-Extreme 任务上,EqR 通过展开多达 40,000 层,将前馈模型的准确率从 2.6% 提升至超过 99%。这一视角为理解迭代潜在模型中的可扩展推理提供了机制性解释。论文推理模型测试时计算吸引子可扩展性EqR推荐理由:EqR 用吸引子理论解释了为什么迭代推理能泛化,做推理模型或可扩展计算的团队值得关注——它可能改变你对测试时计算分配的理解。原文
21:55AK@_akhaliqTMAS是一种通过多智能体协同来扩展测试时计算的新方法。它通过让多个AI模型(智能体)在推理过程中协同工作,显著提升了复杂推理任务的表现。该方法的核心是让智能体之间进行交互和协作,从而更有效地利用计算资源。这为无需大规模预训练即可提升模型智能提供了一条新路径。对于现有AI系统的智能化升级具有重要启示意义。论文多智能体推理模型测试时计算协同/协作推荐理由:TMAS展示了通过多智能体协同而非单纯扩大模型规模来提升推理能力的新思路,对AI效率提升和实际部署有参考价值。原文