12:33MiniMax: News(资讯)精选MiniMax 发布了新一代通用多模态模型 Hailuo 02。该模型在 MMMU 基准上达到 74.4%,在 MathVista 上达到 77.9%,在 MMBench 上达到 87.5%。它支持文本、图像和语音输入,具备强大推理能力。此外还提供语音克隆等特色功能。AI模型MiniMaxHailuo 02多模态推理模型语音克隆推荐理由:MiniMax 新模型多模态强原文
00:33Moonshot AI: Kimi Blog(资讯)Moonshot AI 在2025年11月发布了Kimi K2 Thinking模型并开源,该模型聚焦于提升智能体和推理能力。同时,公司对Kimi K2 Turbo API进行了价格调整,并为K2官方高速版API提供5折优惠。此外,Kimi K2在2025年9月更新了更强的代码能力和更快的API,8月发布了高速版。这些动作表明Moonshot AI正积极推动其模型的推理与工具调用能力,以降低开发者成本。AI模型Kimi K2开源/仓库推理模型智能体API/价格推荐理由:Kimi K2 Thinking开源增强了开源大模型在智能体与推理领域的选择,配合降价策略,开发者可更经济地使用其API进行复杂任务。原文
00:33DeepSeek: GitHub 新仓库(资讯)70°DeepSeek 的 GitHub 组织页展示了其多个关键开源项目,包括高效FP8内核DeepGEMM、面向AI训练和推理的高性能分布式文件系统3FS、多头部隐式注意力内核FlashMLA、专家并行通信库DeepEP,以及用于V3/R1训练的双向流水线并行算法DualPipe等。这些仓库总计获得数万星标,反映了社区对DeepSeek技术栈的高度关注。此次页面加载存在部分错误,但不影响对核心开源成果的概览。AI模型开源/仓库推理模型基础设施分布式训练DeepGEMM推荐理由:DeepSeek 的开源仓库是其技术实力的集中体现,覆盖了从底层计算内核到分布式训练框架的全链路优化,对追求高效AI基础设施的开发者有重要参考价值。原文
21:55AK@_akhaliqTMAS(多智能体协同扩展测试时计算)是一种新方法,通过让多个AI智能体协同工作来提升模型推理能力,类似于OpenAI o1的“思考链”扩展。该技术无需修改模型参数,仅通过集成多个智能体在测试时分配计算资源,在数学、编程等复杂任务上取得显著效果。这意味着推理模型可能迎来无需大规模训练的升级路径,为资源有限的研究团队提供新思路。论文推理模型智能体多模态协同计算测试时扩展8 个信源在谈推荐理由:TMAS探索了多智能体协同扩展测试时计算的范式,无需额外训练即可提升模型性能,对推理模型和智能体系统的发展具有参考价值。原文
21:55AK@_akhaliq该研究提出了一种名为“叛逆学生”的新方法,通过反转教师模型的信号来训练学生模型,从而在推理中探索更多可能性。该方法结合了自蒸馏和强化学习(RLVR),允许学生模型学习超越教师模型的推理策略。实验表明,该技术能有效提升模型的推理能力和探索性,在多个基准测试中取得显著改进。这项工作对于如何利用弱监督或反向信号增强AI推理具有重要启示。论文推理模型强化学习自蒸馏反向信号推荐理由:该工作通过反转教师信号进行推理探索,为自蒸馏和强化学习结合提供了新思路,可能推动弱监督下推理模型的发展,值得关注。原文
21:55AK@_akhaliqTMAS是一种通过多智能体协同来扩展测试时计算的新方法。它通过让多个AI模型(智能体)在推理过程中协同工作,显著提升了复杂推理任务的表现。该方法的核心是让智能体之间进行交互和协作,从而更有效地利用计算资源。这为无需大规模预训练即可提升模型智能提供了一条新路径。对于现有AI系统的智能化升级具有重要启示意义。论文多智能体推理模型测试时计算协同/协作推荐理由:TMAS展示了通过多智能体协同而非单纯扩大模型规模来提升推理能力的新思路,对AI效率提升和实际部署有参考价值。原文
21:55Together AI@togethercompute75°DeepSeek V4 Pro在Together AI无服务器平台上发布,具备长上下文推理能力和领先的编程性能。该模型通过KV缓存、前缀重用、混合注意力、批处理、内核优化和端点配置等技术实现高效服务。来自@zhyncs42、@realDanFu等人的深入分析揭示了其技术细节。AI模型推理模型开源/仓库Together AI长上下文编程推荐理由:DeepSeek V4 Pro在长上下文推理和编程任务上的表现达到SOTA,同时其高效服务技术栈的公开分析对AI部署实践有重要参考价值。原文
21:55Together AI@togethercomputeYutori AI的浏览器代理产品(Scouts、Delegate、Navigator)基于Together AI推理平台运行,实现了相比前沿模型每步2倍的速度提升、4-5倍的推理成本降低,并保持99.9%的可用性与弹性扩展。这展示了在AI代理场景中,推理基础设施对产品性能的关键作用。AI产品智能体推理模型Together AIYutoriAI Native Cloud推荐理由:该案例说明了在浏览器AI代理这类高频率模型调用的场景下,专用推理基础设施可显著提升性能并降低成本,对AI代理产品落地具有参考价值。原文
19:11arXiv: DeepSeek@Aojie Yuan, Zhiyuan Julian Su, Haiyue Zhang, Yi Nian, Yue Zhao75°研究揭示了链式思维推理中的一个反直觉现象:语言模型能在内部(隐藏状态)精确检测自身推理错误(AUROC达0.95),但外在表达的信心与正确推理几乎无异(4.55/5 vs 4.87/5)。这一错误意识从推理第一步就存在(AUROC 0.79),并在Qwen、Llama、Phi等模型家族及DeepSeek-R1等推理模型上得到验证。然而,所有基于该信号的干预尝试(激活导向、最佳N选1、自我修正、激活修补)均失败,说明错误表征是计算质量的诊断指标,而非可修改的因果杠杆。这划定了解释性边界:推理中的错误表征与可编辑的事实知识本质上不同。论文推理模型可解释性链式思维错误检测AI安全推荐理由:该研究揭示了当前可解释性方法的关键局限——高精度的内部错误检测并不能转化为有效修正,挑战了对CoT推理过程的因果干预假设。对AI安全与实践者有重要警示:依赖隐藏状态进行推理纠错可能行不通。原文
19:11arXiv: DeepSeek@Xia Yang, Xuanyi Zhang, Hao Hu, Feng Ji本研究提出一个评估LLM数学推理策略多样性的框架,通过80个AMC和AIME数学问题及217个参考解题策略,测试了四个前沿模型。在单一提示下,所有模型准确率达95%-100%;但在多策略提示下,Gemini生成184个有效策略,DeepSeek 152个,GPT 151个,Claude 110个。模型总共发现50个基准之外的新策略,但在几何和数论领域差距最大。重复运行测试中,最强模型三次运行仅恢复参考集71%的策略。研究认为策略多样性是评估数学推理能力的重要补充维度。论文推理模型数学推理评估框架策略多样性推荐理由:该研究揭示了当前LLM数学能力评估的盲区:高准确率不等于推理多样性。对于数学教育和技术应用而言,理解模型能否灵活切换解题思路至关重要,这一框架为未来评估提供了新方向。原文
19:11arXiv: DeepSeek@Gabriel Garcia70°该研究揭示了当前思维链(CoT)忠诚度评估中的系统性问题:标准损坏研究(通过替换步骤为错误来测量准确性)实际上检测的是答案文本出现的位置,而非计算发生的位置。实验表明,在GSM8K数据集中,仅移除答案语句(保留所有推理步骤)即可将后缀敏感性降低约19倍(3B模型)。冲突答案实验显示,模型在消费时会系统性地遵循显式答案文本,即使推理过程中未提前确定答案(早期承诺低于5%)。该效应在14B规模下仍明显(8.5倍比率),但在32B时趋于消失。研究提出了三项前提条件作为最低标准:仅问题控制、格式表征、全位置扫描。论文推理模型思维链评估方法认知科学大语言模型推荐理由:该发现对当前CoT忠诚度评估方法的可靠性提出根本性质疑,提醒研究者注意数据格式的混淆效应,对评估模型推理能力具有方法论指导意义。原文
19:11arXiv cs.AI@Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar该研究提出了一种无需训练的诊断框架,通过分析每token、每问题、每教师的梯度对齐度,揭示了on-policy蒸馏的有效条件。研究发现:在模型错误回答时蒸馏信号更有效,正确回答时信号噪声大;最优蒸馏配置依赖于学生模型能力和任务类型,不存在通用最优方案。该框架扩展了Google在推理模型训练中的on-policy蒸馏技术,为优化蒸馏策略提供了理论依据。论文推理模型蒸馏/训练自蒸馏推荐理由:该研究通过细粒度分析挑战了蒸馏实践中默认假设,为选择教师模型和蒸馏配置提供了理论指导,对大规模推理模型训练具有实际参考价值。原文
19:11arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe LiLEAD提出了一种在线自适应推理压缩方法,解决大推理模型(如OpenAI o1、DeepSeek-R1)在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束,难以平衡正确性与效率,且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡,并基于模型自身正确rollouts在线估计每个问题的目标长度,然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上,LEAD取得了最高的准确率和准确-效率得分,同时生成比基础模型更短的输出。论文推理模型推理效率自适应压缩强化学习Chain-of-Thought5 个信源在谈推荐理由:该方法为推理模型部署中的计算效率问题提供了自适应解决方案,对于实际应用中降低推理成本和延迟具有重要价值,特别是在数学推理等需要长链推理的场景。原文
19:10arXiv: OpenAI@Wenxuan Li, Pedro R. A. S. Bassi, Xinze Zhou, Jakob Wasserthal, Alan L. Yuille, Zongwei ZhouRadThinking是一个用于放射学纵向临床推理的视觉问答数据集,覆盖20362次CT扫描、9131名患者和2077名健康对照。数据集按推理深度分为三级:基础感知问题、单步规则推理问题和需要多步链式思维推理的组合问题。每个组合问题都附带基于临床报告标准的链式思维路径。该数据集首次将癌症筛查临床推理分层标注,支持训练和评估AI系统的推理能力而不仅仅是检测能力。论文医学影像推理模型视觉问答临床报告标准癌症筛查推荐理由:该数据集为训练AI进行符合临床指南的多步推理提供了标准化基准,对医学影像AI从感知向认知升级有重要价值。原文
17:56AK@_akhaliqSoohak是由数学家精心策划的基准测试,旨在评估大型语言模型(LLM)在科研级别数学问题上的能力。该基准涵盖高等数学的多个领域,包括代数、几何、分析等,要求模型不仅具备计算能力,还需展现推理和创新解题能力。这为评估LLM在专业数学研究中的应用潜力提供了更严格的测试标准。论文推理模型LLM数学评测基准测试Soohak推荐理由:Soohak填补了现有数学评测基准在科研深度上的空白,为AI在数学领域的前沿应用提供了更精确的评估工具,有助于推动模型在数学推理和问题解决上的进步。原文
22:18NVIDIA AI@NVIDIAAI70°NVIDIA AI在X上发布推文,总结了大多数Agent系统面临的核心问题:推理与工具解析在多轮交互中漂移、KV缓存复用失效、工具触发延迟。为此,NVIDIA正通过强化Dynamo框架,使其更好支持Claude Code、OpenClaw、Codex等Agent模式。关键改进包括:稳定提示词以支持KV复用并降低首个Token生成时间(TTFT)、保留多轮推理与工具调用的交错模式、实现流式工具分发而非回合末缓冲、以及对齐真实多轮Agent运行时的行为。这篇博客详细介绍了这些基础设施问题和修复模式,对于正在构建自定义Agent栈或推理端点的开发者有直接参考价值。AI产品Agent推理模型工具调用低延迟NVIDIA Dynamo推荐理由:推文直指当前Agent系统在基础设施层面的共性痛点,NVIDIA给出的优化路径对降低延迟、保持上下文一致性及提升工具调用实时性有实际意义。原文
22:16AK@_akhaliqApple 推出了新的技术 TIDE,其核心理念是让模型中的每一层都了解 token 的上下文信息。这不同于传统 transformer 仅顶层或特定层感知全局上下文,TIDE 通过在每一层引入上下文信息,可能提升模型对序列的理解和生成能力。相关论文已发布,提供了详细的技术细节。这项研究对改进大型语言模型和多模态模型的上下文利用有潜在意义,值得从业者关注。论文推理模型多模态AppleTransformer改进上下文理解推荐理由:TIDE 是对 transformer 架构的改进,可能提高模型层间的信息流动效率,尤其在长序列或复杂上下文任务中,但尚需更多评估验证其实际收益。原文
19:03arXiv: DeepSeek(学术论文)70°该研究揭示了共享输出Token预算时,长思维链会挤占答案空间,导致准确率下降的“耦合税”现象。在GSM8K、MATH-500等任务中,非思维链模式在≤2048 Token下表现更优,且Qwen3模型呈逆缩放规律。作者提出截断-浪费分解模型预测关键点,并通过拆分预算生成方法(如IRIS)将MATH-500准确率提升至83.6%。结果表明测试时推理应被视为预算分配问题。论文思维链Token预算推理模型Qwen3DeepSeek-R1推荐理由:该工作对当前LLM推理优化具有实际指导意义,提醒研究者在固定输出长度场景中平衡推理链与答案空间,避免盲目延长思维链。原文
11:44arXiv cs.AI(学术论文)论文提出PACS(概率常识溯因推理)框架,解决神经符号系统中形式逻辑求解器缺乏常识的问题。传统方法假设常识事实普遍一致,但实际中个体常识存在差异。PACS通过LLM和形式求解器对个体常识信念进行抽样证明,并聚合结论,在多个基准测试中优于思维链、先前神经符号方法和搜索式方法。该工作首次将概率建模引入常识溯因推理,为处理主观常识提供了新思路。论文推理模型常识推理神经符号LLM概率建模推荐理由:通过概率建模处理常识变异,PACS提升了神经符号推理的鲁棒性,对增强LLM在开放世界推理中的常识能力有实际价值。原文
11:44arXiv cs.AI(学术论文)这项研究通过fMRI记录人类学习新视频游戏时的脑活动,对比了前沿推理模型(LRMs)与深度强化学习代理及贝叶斯理论模型。研究发现LRMs不仅在游戏表现上最接近人类,还能以数量级优势预测人脑活动,且这种对齐主要源于模型对游戏状态的上下文表示而非下游推理。实验证明了LRMs作为复杂环境中人类学习与决策的计算模型的潜力。论文推理模型行为对齐脑活动预测强化学习游戏学习推荐理由:该研究首次系统比较了前沿推理模型与强化学习在行为与脑活动对齐上的差异,为理解AI与人类认知机制的一致性提供了重要证据,对认知科学和AI体设计有参考价值。原文
11:43arXiv cs.AI(学术论文)CA-SQL是一种新型Text-to-SQL管道,通过任务难度估计动态调整搜索广度以探索候选查询。该方法结合进化搜索的提示种子策略和新型投票机制,在BIRD基准测试的困难子集上使用GPT-4o-mini达到51.72%准确率,超越使用更大模型的方法。整体执行准确率达61.06%,Soft F1得分68.77%,展示了在复杂SQL生成任务中高效利用计算资源的能力。论文Text-to-SQL推理模型计算分配自然语言到查询推荐理由:该方法为Text-to-SQL领域提供了可落地的复杂度感知计算分配方案,对提升LLM在结构化查询等推理密集型任务中的效率有参考价值。原文
11:42arXiv cs.AI(学术论文)研究表明,在多智能体社会困境中,扩展LLM的上下文窗口反而降低合作率。在7个LLM和4个游戏中,28种模型-游戏设置中有18种出现合作退化,作者将其命名为“记忆诅咒”。通过分析37.8万条推理轨迹,发现核心原因是前瞻性意图的减弱而非偏执增强。使用专注于前瞻性推理的LoRA微调可缓解退化,并零样本迁移至其他游戏。记忆内容而非长度是关键触发因素,且显式Chain-of-Thought推理会加剧该现象。这将记忆重新定义为多智能体行为的主动决定因素。论文推理模型多智能体LLM智能体社会困境上下文窗口推荐理由:该研究揭示了LLM能力提升(如上下文窗口扩展)在社会互动场景中的意外负面效应,对多智能体系统设计和部署具有重要警示意义。原文
11:42arXiv cs.AI(学术论文)70°该论文提出了一种名为“rubric-grounded reinforcement learning (RL)”的框架,将奖励分解为多个可验证的加权标准,由冻结的LLM评判器给每个回应评分,从而提供部分信用优化信号。作者从约10万份科技文档中提取评判规则,并利用GRPO方法微调Llama-3.1-8B-Instruct模型,在保留的评判规则评估上获得了71.7%的归一化奖励。经GRPO训练的策略在GSM8K、MATH、GPQA Main和GPQA Diamond等四个未参与训练的推理基准上均优于基础模型。这一结果表明,结构化、文档依赖的奖励能够改善保留评判规则的性能,并诱发可迁移的推理行为。该框架为提升大模型推理的泛化能力提供了一种新的训练范式。论文推理模型强化学习LLM-as-judgeGRPO泛化性推荐理由:该研究通过分解奖励为多标准评判规则,实现了更细粒度的优化信号,在多个推理基准上验证了迁移效果,对大模型推理能力的训练方法有重要参考价值。原文
11:42arXiv cs.AI(学术论文)标准推理时扩展技术自一致性通过多数投票选答案,但加权多数投票(如置信度感知自一致性CISC)虽更准却需额外调用批评模型增加成本。VecCISC提出轻量自适应框架,利用语义相似度过滤冗余、退化或幻觉轨迹,减少需评估的候选数。在数学、化学、生物、常识推理和人文五个数据集上,VecCISC降低47% token用量,同时保持或超越CISC精度。该方法为推理时扩展提供了更经济的平衡方案。论文推理模型自一致性成本优化语义聚类LLM评估推荐理由:VecCISC通过聚类与过滤显著降低计算开销,对工业界部署高精度推理模型具有实际价值,尤其适合长轨迹场景。原文