全部 AI 动态 · AI 热点

5月13日

12:33

12:33MiniMax: News（资讯）

精选

MiniMax 发布了新一代通用多模态模型 Hailuo 02。该模型在 MMMU 基准上达到 74.4%，在 MathVista 上达到 77.9%，在 MMBench 上达到 87.5%。它支持文本、图像和语音输入，具备强大推理能力。此外还提供语音克隆等特色功能。

AI模型 MiniMax Hailuo 02 多模态推理模型语音克隆

推荐理由：MiniMax 新模型多模态强

原文

00:33

00:33Moonshot AI: Kimi Blog（资讯）

Moonshot AI 在2025年11月发布了Kimi K2 Thinking模型并开源，该模型聚焦于提升智能体和推理能力。同时，公司对Kimi K2 Turbo API进行了价格调整，并为K2官方高速版API提供5折优惠。此外，Kimi K2在2025年9月更新了更强的代码能力和更快的API，8月发布了高速版。这些动作表明Moonshot AI正积极推动其模型的推理与工具调用能力，以降低开发者成本。

AI模型 Kimi K2 开源/仓库推理模型智能体 API/价格

推荐理由：Kimi K2 Thinking开源增强了开源大模型在智能体与推理领域的选择，配合降价策略，开发者可更经济地使用其API进行复杂任务。

原文

00:33

00:33DeepSeek: GitHub 新仓库（资讯）

70°

DeepSeek 的 GitHub 组织页展示了其多个关键开源项目，包括高效FP8内核DeepGEMM、面向AI训练和推理的高性能分布式文件系统3FS、多头部隐式注意力内核FlashMLA、专家并行通信库DeepEP，以及用于V3/R1训练的双向流水线并行算法DualPipe等。这些仓库总计获得数万星标，反映了社区对DeepSeek技术栈的高度关注。此次页面加载存在部分错误，但不影响对核心开源成果的概览。

AI模型开源/仓库推理模型基础设施分布式训练 DeepGEMM

推荐理由：DeepSeek 的开源仓库是其技术实力的集中体现，覆盖了从底层计算内核到分布式训练框架的全链路优化，对追求高效AI基础设施的开发者有重要参考价值。

原文

5月12日

21:55

AK@_akhaliq

TMAS（多智能体协同扩展测试时计算）是一种新方法，通过让多个AI智能体协同工作来提升模型推理能力，类似于OpenAI o1的“思考链”扩展。该技术无需修改模型参数，仅通过集成多个智能体在测试时分配计算资源，在数学、编程等复杂任务上取得显著效果。这意味着推理模型可能迎来无需大规模训练的升级路径，为资源有限的研究团队提供新思路。

论文推理模型智能体多模态协同计算测试时扩展

推荐理由：TMAS探索了多智能体协同扩展测试时计算的范式，无需额外训练即可提升模型性能，对推理模型和智能体系统的发展具有参考价值。

原文

21:55

AK@_akhaliq

该研究提出了一种名为“叛逆学生”的新方法，通过反转教师模型的信号来训练学生模型，从而在推理中探索更多可能性。该方法结合了自蒸馏和强化学习（RLVR），允许学生模型学习超越教师模型的推理策略。实验表明，该技术能有效提升模型的推理能力和探索性，在多个基准测试中取得显著改进。这项工作对于如何利用弱监督或反向信号增强AI推理具有重要启示。

论文推理模型强化学习自蒸馏反向信号

推荐理由：该工作通过反转教师信号进行推理探索，为自蒸馏和强化学习结合提供了新思路，可能推动弱监督下推理模型的发展，值得关注。

原文

21:55

AK@_akhaliq

TMAS是一种通过多智能体协同来扩展测试时计算的新方法。它通过让多个AI模型（智能体）在推理过程中协同工作，显著提升了复杂推理任务的表现。该方法的核心是让智能体之间进行交互和协作，从而更有效地利用计算资源。这为无需大规模预训练即可提升模型智能提供了一条新路径。对于现有AI系统的智能化升级具有重要启示意义。

论文多智能体推理模型测试时计算协同/协作

推荐理由：TMAS展示了通过多智能体协同而非单纯扩大模型规模来提升推理能力的新思路，对AI效率提升和实际部署有参考价值。

原文

21:55

Together AI@togethercompute

75°

DeepSeek V4 Pro在Together AI无服务器平台上发布，具备长上下文推理能力和领先的编程性能。该模型通过KV缓存、前缀重用、混合注意力、批处理、内核优化和端点配置等技术实现高效服务。来自@zhyncs42、@realDanFu等人的深入分析揭示了其技术细节。

AI模型推理模型开源/仓库 Together AI 长上下文编程

推荐理由：DeepSeek V4 Pro在长上下文推理和编程任务上的表现达到SOTA，同时其高效服务技术栈的公开分析对AI部署实践有重要参考价值。

原文

21:55

Together AI@togethercompute

Yutori AI的浏览器代理产品（Scouts、Delegate、Navigator）基于Together AI推理平台运行，实现了相比前沿模型每步2倍的速度提升、4-5倍的推理成本降低，并保持99.9%的可用性与弹性扩展。这展示了在AI代理场景中，推理基础设施对产品性能的关键作用。

AI产品智能体推理模型 Together AI Yutori AI Native Cloud

推荐理由：该案例说明了在浏览器AI代理这类高频率模型调用的场景下，专用推理基础设施可显著提升性能并降低成本，对AI代理产品落地具有参考价值。

原文

19:11

arXiv: DeepSeek@Aojie Yuan, Zhiyuan Julian Su, Haiyue Zhang, Yi Nian, Yue Zhao

75°

研究揭示了链式思维推理中的一个反直觉现象：语言模型能在内部（隐藏状态）精确检测自身推理错误（AUROC达0.95），但外在表达的信心与正确推理几乎无异（4.55/5 vs 4.87/5）。这一错误意识从推理第一步就存在（AUROC 0.79），并在Qwen、Llama、Phi等模型家族及DeepSeek-R1等推理模型上得到验证。然而，所有基于该信号的干预尝试（激活导向、最佳N选1、自我修正、激活修补）均失败，说明错误表征是计算质量的诊断指标，而非可修改的因果杠杆。这划定了解释性边界：推理中的错误表征与可编辑的事实知识本质上不同。

论文推理模型可解释性链式思维错误检测 AI安全

推荐理由：该研究揭示了当前可解释性方法的关键局限——高精度的内部错误检测并不能转化为有效修正，挑战了对CoT推理过程的因果干预假设。对AI安全与实践者有重要警示：依赖隐藏状态进行推理纠错可能行不通。

原文

19:11

arXiv: DeepSeek@Xia Yang, Xuanyi Zhang, Hao Hu, Feng Ji

本研究提出一个评估LLM数学推理策略多样性的框架，通过80个AMC和AIME数学问题及217个参考解题策略，测试了四个前沿模型。在单一提示下，所有模型准确率达95%-100%；但在多策略提示下，Gemini生成184个有效策略，DeepSeek 152个，GPT 151个，Claude 110个。模型总共发现50个基准之外的新策略，但在几何和数论领域差距最大。重复运行测试中，最强模型三次运行仅恢复参考集71%的策略。研究认为策略多样性是评估数学推理能力的重要补充维度。

论文推理模型数学推理评估框架策略多样性

推荐理由：该研究揭示了当前LLM数学能力评估的盲区：高准确率不等于推理多样性。对于数学教育和技术应用而言，理解模型能否灵活切换解题思路至关重要，这一框架为未来评估提供了新方向。

原文

19:11

arXiv: DeepSeek@Gabriel Garcia

70°

该研究揭示了当前思维链(CoT)忠诚度评估中的系统性问题：标准损坏研究（通过替换步骤为错误来测量准确性）实际上检测的是答案文本出现的位置，而非计算发生的位置。实验表明，在GSM8K数据集中，仅移除答案语句（保留所有推理步骤）即可将后缀敏感性降低约19倍（3B模型）。冲突答案实验显示，模型在消费时会系统性地遵循显式答案文本，即使推理过程中未提前确定答案（早期承诺低于5%）。该效应在14B规模下仍明显（8.5倍比率），但在32B时趋于消失。研究提出了三项前提条件作为最低标准：仅问题控制、格式表征、全位置扫描。

论文推理模型思维链评估方法认知科学大语言模型

推荐理由：该发现对当前CoT忠诚度评估方法的可靠性提出根本性质疑，提醒研究者注意数据格式的混淆效应，对评估模型推理能力具有方法论指导意义。

原文

19:11

arXiv cs.AI@Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar

该研究提出了一种无需训练的诊断框架，通过分析每token、每问题、每教师的梯度对齐度，揭示了on-policy蒸馏的有效条件。研究发现：在模型错误回答时蒸馏信号更有效，正确回答时信号噪声大；最优蒸馏配置依赖于学生模型能力和任务类型，不存在通用最优方案。该框架扩展了Google在推理模型训练中的on-policy蒸馏技术，为优化蒸馏策略提供了理论依据。

论文推理模型蒸馏/训练自蒸馏

推荐理由：该研究通过细粒度分析挑战了蒸馏实践中默认假设，为选择教师模型和蒸馏配置提供了理论指导，对大规模推理模型训练具有实际参考价值。

原文

19:11

arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe Li

LEAD提出了一种在线自适应推理压缩方法，解决大推理模型（如OpenAI o1、DeepSeek-R1）在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束，难以平衡正确性与效率，且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡，并基于模型自身正确rollouts在线估计每个问题的目标长度，然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上，LEAD取得了最高的准确率和准确-效率得分，同时生成比基础模型更短的输出。

论文推理模型推理效率自适应压缩强化学习 Chain-of-Thought

推荐理由：该方法为推理模型部署中的计算效率问题提供了自适应解决方案，对于实际应用中降低推理成本和延迟具有重要价值，特别是在数学推理等需要长链推理的场景。

原文

19:10

arXiv: OpenAI@Wenxuan Li, Pedro R. A. S. Bassi, Xinze Zhou, Jakob Wasserthal, Alan L. Yuille, Zongwei Zhou

RadThinking是一个用于放射学纵向临床推理的视觉问答数据集，覆盖20362次CT扫描、9131名患者和2077名健康对照。数据集按推理深度分为三级：基础感知问题、单步规则推理问题和需要多步链式思维推理的组合问题。每个组合问题都附带基于临床报告标准的链式思维路径。该数据集首次将癌症筛查临床推理分层标注，支持训练和评估AI系统的推理能力而不仅仅是检测能力。

论文医学影像推理模型视觉问答临床报告标准癌症筛查

推荐理由：该数据集为训练AI进行符合临床指南的多步推理提供了标准化基准，对医学影像AI从感知向认知升级有重要价值。

原文

17:56

AK@_akhaliq

Soohak是由数学家精心策划的基准测试，旨在评估大型语言模型（LLM）在科研级别数学问题上的能力。该基准涵盖高等数学的多个领域，包括代数、几何、分析等，要求模型不仅具备计算能力，还需展现推理和创新解题能力。这为评估LLM在专业数学研究中的应用潜力提供了更严格的测试标准。

论文推理模型 LLM 数学评测基准测试 Soohak

推荐理由：Soohak填补了现有数学评测基准在科研深度上的空白，为AI在数学领域的前沿应用提供了更精确的评估工具，有助于推动模型在数学推理和问题解决上的进步。

原文

5月11日

22:18

NVIDIA AI@NVIDIAAI

70°

NVIDIA AI在X上发布推文，总结了大多数Agent系统面临的核心问题：推理与工具解析在多轮交互中漂移、KV缓存复用失效、工具触发延迟。为此，NVIDIA正通过强化Dynamo框架，使其更好支持Claude Code、OpenClaw、Codex等Agent模式。关键改进包括：稳定提示词以支持KV复用并降低首个Token生成时间（TTFT）、保留多轮推理与工具调用的交错模式、实现流式工具分发而非回合末缓冲、以及对齐真实多轮Agent运行时的行为。这篇博客详细介绍了这些基础设施问题和修复模式，对于正在构建自定义Agent栈或推理端点的开发者有直接参考价值。

AI产品 Agent 推理模型工具调用低延迟 NVIDIA Dynamo

推荐理由：推文直指当前Agent系统在基础设施层面的共性痛点，NVIDIA给出的优化路径对降低延迟、保持上下文一致性及提升工具调用实时性有实际意义。

原文

22:16

AK@_akhaliq

Apple 推出了新的技术 TIDE，其核心理念是让模型中的每一层都了解 token 的上下文信息。这不同于传统 transformer 仅顶层或特定层感知全局上下文，TIDE 通过在每一层引入上下文信息，可能提升模型对序列的理解和生成能力。相关论文已发布，提供了详细的技术细节。这项研究对改进大型语言模型和多模态模型的上下文利用有潜在意义，值得从业者关注。

论文推理模型多模态 Apple Transformer改进上下文理解

推荐理由：TIDE 是对 transformer 架构的改进，可能提高模型层间的信息流动效率，尤其在长序列或复杂上下文任务中，但尚需更多评估验证其实际收益。

原文

19:03

19:03arXiv: DeepSeek（学术论文）

70°

该研究揭示了共享输出Token预算时，长思维链会挤占答案空间，导致准确率下降的“耦合税”现象。在GSM8K、MATH-500等任务中，非思维链模式在≤2048 Token下表现更优，且Qwen3模型呈逆缩放规律。作者提出截断-浪费分解模型预测关键点，并通过拆分预算生成方法（如IRIS）将MATH-500准确率提升至83.6%。结果表明测试时推理应被视为预算分配问题。

论文思维链 Token预算推理模型 Qwen3 DeepSeek-R1

推荐理由：该工作对当前LLM推理优化具有实际指导意义，提醒研究者在固定输出长度场景中平衡推理链与答案空间，避免盲目延长思维链。

原文