AITOP

5月16日

01:17

Together AI@togethercompute

Together AI 宣布上线 Gemma-4-31B-it-Pearl 模型，这是 Pearl Research Labs 基于 Gemma 4 31B 进行指令微调的版本，采用了 @prlnet 的 Proof of Useful Work 协议。该模型现已作为无服务器推理端点提供，价格比标准版低 25% 以上。对于需要高效、低成本部署大模型的 AI 开发者来说，这是一个值得关注的新选择。

AI产品 Gemma-4-31B-it-Pearl Together AI 推理模型无服务器推理价格优惠

推荐理由：做模型推理部署的团队可以关注这个价格优势——同样基于 Gemma 4 31B，但成本直降 25%+，适合预算敏感的生产环境。

5月15日

13:13

berryxia@berryxia

蚂蚁集团 AGI 团队开源了 Ring-2.6-1T，一个拥有 1 万亿参数的旗舰思考模型，专为 Agent 工作流、代码工程、长时序执行等复杂任务设计。该模型支持 high 和 xhigh 两种推理模式，采用 IcePop 异步强化学习算法稳定训练。完全开源意味着企业可将模型部署到本地服务器，解决数据隐私和合规问题。模型已在 Hugging Face 和 ModelScope 上线，降低了企业级 Agent 应用的部署门槛。

AI模型开源/仓库推理模型 Agent工作流企业自动化蚂蚁集团

推荐理由：万亿参数思考模型开源，解决了企业数据不出域的痛点，做内部自动化或对数据安全敏感的团队可以直接部署试试。

10:56

arXiv cs.AI@Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang

精选67

OpenDeepThink 是一种基于种群的测试时计算扩展框架，通过成对 Bradley-Terry 比较选择最佳推理候选，解决了并行采样中的选择瓶颈。每次迭代中，LLM 对随机候选对进行评判并聚合为全局排名，保留顶部候选并变异前四分之三，丢弃底部四分之一。在 Codeforces 上，Gemini 3.1 Pro 的 Elo 评分在 8 轮 LLM 调用（约 27 分钟）内提升 405 分。该方法跨弱强模型无需重新调参，在 HLE 基准上，增益集中在客观可验证领域，主观领域则出现逆转。同时发布了 CF-73 数据集，包含 73 道专家评级的 Codeforces 问题。

论文推理模型测试时计算扩展 Bradley-Terry 并行推理 Codeforces

推荐理由：OpenDeepThink 用 Bradley-Terry 聚合解决了并行推理的候选选择难题，做推理扩展的开发者可以直接复现，效果显著且无需调参。

10:10

arXiv: DeepSeek@Libo Sun, Po-wei Harn, Peixiong He, Xiao Qin

精选58

该研究系统评估了七种KV缓存压缩机制在数学推理任务上的表现，发现所有现有方法在小预算下均被拒绝。作者提出一种名为α的简单修改，通过引入多样性惩罚项替代传统argmax-top-k选择，在Qwen-7B和Llama-8B模型上，在64和128预算下，α在两项测试中显著优于基线。该发现表明，最小化的评分修改比复杂的结构重设计更有效，且严格的实验协议使这一不对称性得以显现。

论文 KV缓存压缩推理模型数学推理 Qwen Llama

推荐理由：KV缓存压缩是长上下文推理的关键瓶颈，做LLM推理优化的开发者可以直接参考α方法——它用一行修改就打败了七种复杂方案，值得在自家模型上试试。

10:08

arXiv: DeepSeek@Bin Lei, Caiwen Ding, Jiachen Yang, Ang Li, Xin Eric Wang

精选58

研究发现，思维链推理长度增加时，模型对早期关键洞察的注意力会逐渐减弱，导致准确率在达到峰值后下降。为此，研究者提出InsightReplay方法，让模型在推理过程中定期提取关键洞察并回放到当前生成位置附近，保持其可访问性。在8B和30B规模的Qwen3.5、DeepSeek-R1-Distill-Qwen、Gemma-4模型上，覆盖AIME、HMMT、GPQA Diamond、LiveCodeBench v5等基准测试，3轮InsightReplay在所有24个设置中均带来准确率提升，平均提升1.65个百分点，最高单设置提升达9.2个百分点。结果表明，测试时扩展的有效性不仅取决于推理量，还取决于关键中间洞察在长推理轨迹中的可访问性。

论文推理模型思维链注意力机制 InsightReplay 长上下文

推荐理由：长链推理的注意力衰减问题终于有了针对性解法，做推理模型优化或长上下文应用的团队值得关注——InsightReplay简单有效，可以直接在现有CoT框架上尝试。

08:58

Ethan Mollick@emollick

Ethan Mollick 指出，第二条缩放定律（Second Scaling Law）依然未被打破：只要增加 LLM 的思考 token（thinking tokens），就能在黑客攻击、数学、科学、填字游戏等任务上获得更好表现。目前尚未观察到性能平台期。这一发现对依赖推理能力的 AI 应用开发者有直接指导意义，意味着通过增加计算资源（而非仅扩大模型规模）即可持续提升模型在复杂任务上的表现。

论文缩放定律推理模型思考 token LLM 性能 Ethan Mollick

推荐理由：做 LLM 推理优化或复杂任务应用的团队，这条定律意味着你不需要等更大模型——加思考 token 就能直接提升效果，值得在现有模型上试试。

5月14日

18:29

Meta AI@AIatMeta

Meta 超级智能实验室推出了 Muse 系列的首个模型 Muse Spark，这是一个原生多模态推理模型，支持工具使用、视觉思维链和多智能体编排。该模型已在 Meta AI 应用和指定网站上线，并通过 API 向部分合作伙伴提供私有预览。Meta 表示未来版本将开源。Muse Spark 的发布标志着 Meta 在多模态推理和智能体协作领域的重要进展。

AI模型多模态推理模型工具调用智能体 Meta

推荐理由：做多模态应用或智能体开发的团队可以直接上手试 Muse Spark 的工具调用和视觉思维链能力，Meta 承诺未来开源也值得关注。

13:37

百川智能 Baichuan@BaichuanAI

百川AI在HealthBench、Hard、Hallucination和ScanBench等多项基准测试中取得领先成绩，其中HealthBench得分65.1，Hard得分44.4，幻觉率仅3.5%低于ChatGPT，ScanBench全站排名第一。这显示了百川AI在医疗、推理和抗幻觉方面的显著进步，对AI应用开发者具有重要参考价值。

AI模型百川AI 基准测试医疗AI 抗幻觉推理模型

推荐理由：百川AI在多个关键基准上超越ChatGPT，做医疗AI或高可靠性应用的团队值得关注其低幻觉率表现。

13:37

深度求索 DeepSeek@deepseek_ai

DeepSeek 正式发布 V3.2 和 V3.2-Speciale 两个新模型。V3.2 是 V3.2-Exp 的正式继任者，已在 App、Web 和 API 上线；V3.2-Speciale 则专注于极致推理能力，目前仅通过 API 提供。这两个模型以推理优先为设计理念，旨在更好地支持智能体（agent）场景。技术报告已同步公开。

AI模型 DeepSeek 推理模型智能体模型发布 API

推荐理由：做智能体开发或需要强推理能力的团队，DeepSeek 这次直接给了两个新选择——V3.2 可立即上手，Speciale 适合追求极致推理的 API 用户，值得关注技术报告里的细节。

13:37

深度求索 DeepSeek@deepseek_ai

DeepSeek 发布了 V4 Preview 版本，包含 Pro 和 Flash 两个模型，均支持 1M 上下文长度。Pro 版本总参数量 1.6T，激活参数 49B，性能对标全球顶级闭源模型；Flash 版本总参数量 284B，激活参数 13B，主打高效经济。模型权重和技术报告已开源，API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。

AI模型 DeepSeek-V4 开源/仓库长上下文推理模型性价比

推荐理由：长上下文和低成本是当前 AI 应用的两大痛点，DeepSeek-V4 同时解决这两个问题，做 RAG、文档分析或长对话的开发者可以直接上手试试。

13:36

xAI@xai

xAI 发布了 Grok 4.3 模型，已在其 API 上可用。该模型在代理工具调用和指令遵循方面领先 @ArtificialAnlys 排行榜，并在 @ValsAI 的企业领域（如判例法和公司金融）中排名第一。Grok 4.3 支持 100 万 token 上下文窗口，输入价格为每百万 token 1.25 美元，输出价格为 2.50 美元。开发者可以立即创建 API 密钥开始使用。

AI模型 Grok 4.3 xAI 推理模型 API 企业应用

推荐理由：Grok 4.3 在代理工具调用和企业场景（如法律、金融）中表现突出，做智能体或企业级应用的开发者可以直接用 API 体验，性价比也不错。

13:27

arXiv cs.AI@Tyler Alvarez, Ali Baheri

精选55

该论文提出了一种新的幻觉检测方法，将多步推理中的幻觉视为隐藏状态轨迹的几何特性，而非传统对整个输出打分。作者通过对比PCA构建标签条件教师模型，提取七个几何过渡特征，并蒸馏出BiLSTM学生模型，仅需单次前向传播即可定位首个错误步骤。在ProcessBench、PRM800K等基准测试中，该方法优于基于熵、探针和注意力的基线，教师模型跨语言模型和数据集稳定迁移，但学生模型在分布偏移下失效。研究将步骤级幻觉检测重新定义为轨迹动力学问题，并指出分布偏移下保持对比传输裕度是部署的关键障碍。

论文幻觉检测推理模型隐藏状态轨迹对比PCA 分布偏移

推荐理由：这篇论文把幻觉检测从“整体打分”推进到“单步定位”，做推理模型调试和可解释性研究的团队值得关注——它用几何视角揭示了错误发生的精确位置，比传统方法更细粒度。

13:26

arXiv: DeepSeek@Chenjun Xu, Zhennan Zhou, Zhan Su, Bill Howe, Lucy Lu Wang, Bingbing Wen

精选55

长链推理（Long CoT）虽能提升多步推理性能，但常导致模型过度思考，产生低效推理，增加推理成本。STOP 提出一种结构化在线策略剪枝算法，通过自蒸馏、节点分割和推理树构建，识别并保留最早的正确推理节点（ECN），去除冗余推理。在 DeepSeek-R1-Distill-Qwen-7B 等模型上，STOP 在低数据微调场景下减少 19.4%-42.4% 的生成 token，同时基本保持准确率。该方法比教师引导剪枝带来更小的分布偏移，并将推理努力从冗余验证转向更高效的探索。

论文推理模型剪枝/优化低数据微调长链推理 DeepSeek-R1

推荐理由：做推理模型微调或部署的团队，STOP 解决了低数据场景下长链推理成本高的问题，直接减少 token 消耗，建议试试这个轻量剪枝方案。

01:10

Noam Shazeer@NoamShazeer

Google 发布了 Gemini 3.1 Flash Live 模型，专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先，支持多语言，已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体，完成复杂任务。

AI模型 Gemini 语音智能体函数调用多语言推理模型

推荐理由：语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先，做语音交互的团队可以直接上手试试。

5月13日

21:36

Simon Willison’s Weblog（博客/媒体）

LLM 命令行工具发布 0.32a2 版本，核心更新是支持 OpenAI 最新的 /v1/responses 端点，替代旧的 /v1/chat/completions。这意味着 GPT-5 等推理模型可以在工具调用时展示推理过程，用户运行提示时能看到彩色推理 token。新增 -R 或 --hide-reasoning 参数可隐藏推理输出。该版本还包含其他多项改进，适合使用 LLM 与 OpenAI 模型交互的开发者。

AI产品 LLM OpenAI 推理模型命令行工具 GPT-5

推荐理由：LLM 用户终于能直观看到 GPT-5 等模型的推理过程了，做 AI 工具链和命令行调用的开发者值得升级体验。

21:36

Moonshot AI: Kimi Blog（资讯）

AI模型智能体开源/仓库推理模型 Moonshot Kimi K2

推荐理由：Kimi K2 开源让开发者直接获得了一个在工具使用和推理上超越 GPT-4 的智能体模型，做 AI 应用和自动化流程的团队建议立即上手试试。

21:35

Moonshot AI: Kimi Blog（资讯）

月之暗面正式发布了 Kimi 长思考模型 API，该模型具备深度推理能力，能够处理复杂任务并输出详细思考过程。开发者可以通过 API 调用，在应用中集成 Kimi 的思考能力，提升问答质量和逻辑性。该模型在数学、编程、逻辑推理等场景表现突出，支持多轮对话和长上下文。此次发布标志着 Kimi 从对话产品向平台化服务迈出重要一步。

AI产品 Kimi 长思考模型 API 推理模型月之暗面

推荐理由：Kimi 长思考模型 API 让开发者能直接调用深度推理能力，做复杂问答或逻辑分析的应用团队值得接入试试。

21:35

Moonshot AI: Kimi Blog（资讯）

Kimi 发布了 K2 Thinking 模型并开源，该模型在 Agent 和推理能力上实现显著提升。K2 Thinking 基于 K2 架构，通过强化学习优化了长链推理和多步决策能力，在多个基准测试中表现优异。开源版本允许开发者自由部署和二次开发，降低了使用门槛。这一发布标志着 Kimi 在 Agent 和推理模型领域的持续投入，为开发者和企业提供了更强大的工具。

AI模型 Kimi K2 Thinking 开源/仓库推理模型智能体

推荐理由：K2 Thinking 的开源让 Agent 和推理能力更强的模型触手可及，做智能体或复杂推理应用的开发者可以直接下载试用，降低自研成本。

21:35

Anthropic: Newsroom（资讯）

Anthropic 于 2026 年 4 月 16 日发布了 Claude Opus 4.7，这是其最新旗舰模型。该模型在编程、智能体、视觉和多步骤任务上性能显著提升，尤其在需要深度推理和一致性的复杂工作中表现更佳。Opus 4.7 的推出进一步巩固了 Anthropic 在高端 AI 模型领域的竞争力，为开发者和企业用户提供了更可靠的自动化解决方案。

AI模型 Claude Opus 4.7 推理模型编程助手智能体 Anthropic

推荐理由：做复杂编程和智能体开发的团队终于有了更靠谱的选择——Opus 4.7 在多步骤任务上的一致性提升明显，建议直接上手测试。

19:12

arXiv cs.AI@Yuxiao Yang, Xiaoyun Wang, Weitong Zhang

精选65

本文研究了在线策略自蒸馏（OPSD）方法，即语言模型通过在其自身生成的轨迹上蒸馏特权教师分布来提升推理能力。作者发现OPSD存在一个常见但常被忽视的问题：教师响应中的自我反思偏差和模板会导致token级监督校准错误。为此，他们提出OGLS-SD框架，利用可验证的结果奖励对比成功与失败的在线轨迹，并通过logit引导校准教师logits。该方法结合结果级正确性与密集的token级引导，在多个基准上稳定了自蒸馏过程并提升了推理性能。

论文自蒸馏推理模型 logit校准结果引导 LLM

推荐理由：如果你在做LLM推理优化或自蒸馏训练，OGLS-SD解决了教师-学生分布不匹配的痛点，用结果奖励校准logits的思路直接可复用，值得仔细看方法细节。

19:12

arXiv: DeepSeek@Zizhao Chen, Yuying Li, Siting Lin, Lianxi Wang

精选75

大语言模型在复杂推理中常出现“过度思考”问题，导致推理链过长、效率低下。现有强化学习方法通过设计复杂奖励函数压缩推理链，但高质量样本在探索空间中极为稀疏，形成采样瓶颈。受认知科学启发，研究者从理论上证明，参考答案引导的后验分布比先验分布具有更高期望效用，可突破高质量样本的采样瓶颈。为此，他们提出VPG-EA框架，将高效推理形式化为变分推断问题，引入效率感知的证据下界作为理论基础。该框架采用参数共享的双流架构实例化后验分布和先验策略，通过交叉视图评估过滤伪高效路径，再通过变分蒸馏将后验的高效模式单向迁移至先验策略。在DeepSeek-R1-Distill-Qwen-1.5B和7B规模上的实验显示，VPG-EA在综合效率指标ε³上分别比最强基线提升8.73%和12.37%。

论文推理模型效率优化变分推断过度思考知识蒸馏

推荐理由：这篇论文为LLM推理效率问题提供了理论严谨且可落地的解决方案，做推理优化或模型压缩的研究者可以直接参考其变分蒸馏方法，值得细读。

19:12

arXiv: DeepSeek@Wenkai Li, Fan Yang, Ananya Hazarika, Shaunak A. Mehta, Koichi Onoue

精选75

一项新研究系统性地检验了思维链（CoT）推理过程与最终答案形成时间之间的对齐程度。研究者提出了一个步骤级的检测-分类-比较框架，使用答案承诺代理、Patchscopes、调谐透镜探针和因果方向消融等方法，对九个模型和七个推理基准进行了分析。结果显示，潜在承诺与显式答案到达仅在平均 61.9% 的步骤上对齐，其中 58% 的不匹配事件表现为“虚构延续”——模型在答案已稳定后继续生成看似深思熟虑的文本。在架构匹配的 Qwen2.5 与 DeepSeek-R1-Distill 对比中，推理管线改变了失败组成而非整体对齐度。研究还发现，步骤级对齐度越低，CoT 的实用性反而越大，表明最受益于 CoT 的场景往往时间忠实性最差。截断实验和捐赠-破坏测试进一步表明，大量承诺后的文本对最终答案并非关键。

论文思维链可解释性 AI安全推理模型忠实性

推荐理由：这项研究戳破了 CoT 推理过程忠实反映模型思考过程的假设，做 AI 安全、可解释性研究或依赖 CoT 审计的团队值得关注——它提醒我们，看起来合理的推理链条可能只是事后编造的故事。

15:51

Perplexity@perplexity_ai

精选65

Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明，GB200 不仅是训练平台，更是大型 MoE 模型高吞吐推理的重大升级，性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率，为大规模 AI 服务提供新思路。

AI模型推理模型 Perplexity Qwen3 NVIDIA GB200 MoE

推荐理由：做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著，Perplexity 的实践给出了可直接参考的优化路径。

00:33

Moonshot AI: Kimi Blog（资讯）

Moonshot AI 在2025年11月发布了Kimi K2 Thinking模型并开源，该模型聚焦于提升智能体和推理能力。同时，公司对Kimi K2 Turbo API进行了价格调整，并为K2官方高速版API提供5折优惠。此外，Kimi K2在2025年9月更新了更强的代码能力和更快的API，8月发布了高速版。这些动作表明Moonshot AI正积极推动其模型的推理与工具调用能力，以降低开发者成本。

AI模型 Kimi K2 开源/仓库推理模型智能体 API/价格

推荐理由：Kimi K2 Thinking开源增强了开源大模型在智能体与推理领域的选择，配合降价策略，开发者可更经济地使用其API进行复杂任务。

00:33

DeepSeek: GitHub 新仓库（资讯）

DeepSeek 的 GitHub 组织页展示了其多个关键开源项目，包括高效FP8内核DeepGEMM、面向AI训练和推理的高性能分布式文件系统3FS、多头部隐式注意力内核FlashMLA、专家并行通信库DeepEP，以及用于V3/R1训练的双向流水线并行算法DualPipe等。这些仓库总计获得数万星标，反映了社区对DeepSeek技术栈的高度关注。此次页面加载存在部分错误，但不影响对核心开源成果的概览。

AI模型开源/仓库推理模型基础设施分布式训练 DeepGEMM

推荐理由：DeepSeek 的开源仓库是其技术实力的集中体现，覆盖了从底层计算内核到分布式训练框架的全链路优化，对追求高效AI基础设施的开发者有重要参考价值。

5月12日

21:55

AK@_akhaliq

TMAS（多智能体协同扩展测试时计算）是一种新方法，通过让多个AI智能体协同工作来提升模型推理能力，类似于OpenAI o1的“思考链”扩展。该技术无需修改模型参数，仅通过集成多个智能体在测试时分配计算资源，在数学、编程等复杂任务上取得显著效果。这意味着推理模型可能迎来无需大规模训练的升级路径，为资源有限的研究团队提供新思路。

论文推理模型智能体多模态协同计算测试时扩展

推荐理由：TMAS探索了多智能体协同扩展测试时计算的范式，无需额外训练即可提升模型性能，对推理模型和智能体系统的发展具有参考价值。

21:55

AK@_akhaliq

该研究提出了一种名为“叛逆学生”的新方法，通过反转教师模型的信号来训练学生模型，从而在推理中探索更多可能性。该方法结合了自蒸馏和强化学习（RLVR），允许学生模型学习超越教师模型的推理策略。实验表明，该技术能有效提升模型的推理能力和探索性，在多个基准测试中取得显著改进。这项工作对于如何利用弱监督或反向信号增强AI推理具有重要启示。

论文推理模型强化学习自蒸馏反向信号

推荐理由：该工作通过反转教师信号进行推理探索，为自蒸馏和强化学习结合提供了新思路，可能推动弱监督下推理模型的发展，值得关注。

21:55

AK@_akhaliq

TMAS是一种通过多智能体协同来扩展测试时计算的新方法。它通过让多个AI模型（智能体）在推理过程中协同工作，显著提升了复杂推理任务的表现。该方法的核心是让智能体之间进行交互和协作，从而更有效地利用计算资源。这为无需大规模预训练即可提升模型智能提供了一条新路径。对于现有AI系统的智能化升级具有重要启示意义。

论文多智能体推理模型测试时计算协同/协作

推荐理由：TMAS展示了通过多智能体协同而非单纯扩大模型规模来提升推理能力的新思路，对AI效率提升和实际部署有参考价值。

21:55

Together AI@togethercompute

DeepSeek V4 Pro在Together AI无服务器平台上发布，具备长上下文推理能力和领先的编程性能。该模型通过KV缓存、前缀重用、混合注意力、批处理、内核优化和端点配置等技术实现高效服务。来自@zhyncs42、@realDanFu等人的深入分析揭示了其技术细节。

AI模型推理模型开源/仓库 Together AI 长上下文编程

推荐理由：DeepSeek V4 Pro在长上下文推理和编程任务上的表现达到SOTA，同时其高效服务技术栈的公开分析对AI部署实践有重要参考价值。

21:55

Together AI@togethercompute

Yutori AI的浏览器代理产品（Scouts、Delegate、Navigator）基于Together AI推理平台运行，实现了相比前沿模型每步2倍的速度提升、4-5倍的推理成本降低，并保持99.9%的可用性与弹性扩展。这展示了在AI代理场景中，推理基础设施对产品性能的关键作用。

AI产品智能体推理模型 Together AI Yutori AI Native Cloud

推荐理由：该案例说明了在浏览器AI代理这类高频率模型调用的场景下，专用推理基础设施可显著提升性能并降低成本，对AI代理产品落地具有参考价值。

19:11

arXiv: DeepSeek@Aojie Yuan, Zhiyuan Julian Su, Haiyue Zhang, Yi Nian, Yue Zhao

研究揭示了链式思维推理中的一个反直觉现象：语言模型能在内部（隐藏状态）精确检测自身推理错误（AUROC达0.95），但外在表达的信心与正确推理几乎无异（4.55/5 vs 4.87/5）。这一错误意识从推理第一步就存在（AUROC 0.79），并在Qwen、Llama、Phi等模型家族及DeepSeek-R1等推理模型上得到验证。然而，所有基于该信号的干预尝试（激活导向、最佳N选1、自我修正、激活修补）均失败，说明错误表征是计算质量的诊断指标，而非可修改的因果杠杆。这划定了解释性边界：推理中的错误表征与可编辑的事实知识本质上不同。

论文推理模型可解释性链式思维错误检测 AI安全

推荐理由：该研究揭示了当前可解释性方法的关键局限——高精度的内部错误检测并不能转化为有效修正，挑战了对CoT推理过程的因果干预假设。对AI安全与实践者有重要警示：依赖隐藏状态进行推理纠错可能行不通。

19:11

arXiv: DeepSeek@Xia Yang, Xuanyi Zhang, Hao Hu, Feng Ji

本研究提出一个评估LLM数学推理策略多样性的框架，通过80个AMC和AIME数学问题及217个参考解题策略，测试了四个前沿模型。在单一提示下，所有模型准确率达95%-100%；但在多策略提示下，Gemini生成184个有效策略，DeepSeek 152个，GPT 151个，Claude 110个。模型总共发现50个基准之外的新策略，但在几何和数论领域差距最大。重复运行测试中，最强模型三次运行仅恢复参考集71%的策略。研究认为策略多样性是评估数学推理能力的重要补充维度。

论文推理模型数学推理评估框架策略多样性

推荐理由：该研究揭示了当前LLM数学能力评估的盲区：高准确率不等于推理多样性。对于数学教育和技术应用而言，理解模型能否灵活切换解题思路至关重要，这一框架为未来评估提供了新方向。

19:11

arXiv: DeepSeek@Gabriel Garcia

该研究揭示了当前思维链(CoT)忠诚度评估中的系统性问题：标准损坏研究（通过替换步骤为错误来测量准确性）实际上检测的是答案文本出现的位置，而非计算发生的位置。实验表明，在GSM8K数据集中，仅移除答案语句（保留所有推理步骤）即可将后缀敏感性降低约19倍（3B模型）。冲突答案实验显示，模型在消费时会系统性地遵循显式答案文本，即使推理过程中未提前确定答案（早期承诺低于5%）。该效应在14B规模下仍明显（8.5倍比率），但在32B时趋于消失。研究提出了三项前提条件作为最低标准：仅问题控制、格式表征、全位置扫描。

论文推理模型思维链评估方法认知科学大语言模型

推荐理由：该发现对当前CoT忠诚度评估方法的可靠性提出根本性质疑，提醒研究者注意数据格式的混淆效应，对评估模型推理能力具有方法论指导意义。

19:11

arXiv cs.AI@Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar

该研究提出了一种无需训练的诊断框架，通过分析每token、每问题、每教师的梯度对齐度，揭示了on-policy蒸馏的有效条件。研究发现：在模型错误回答时蒸馏信号更有效，正确回答时信号噪声大；最优蒸馏配置依赖于学生模型能力和任务类型，不存在通用最优方案。该框架扩展了Google在推理模型训练中的on-policy蒸馏技术，为优化蒸馏策略提供了理论依据。

论文推理模型蒸馏/训练自蒸馏

推荐理由：该研究通过细粒度分析挑战了蒸馏实践中默认假设，为选择教师模型和蒸馏配置提供了理论指导，对大规模推理模型训练具有实际参考价值。

19:11

arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe Li

LEAD提出了一种在线自适应推理压缩方法，解决大推理模型（如OpenAI o1、DeepSeek-R1）在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束，难以平衡正确性与效率，且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡，并基于模型自身正确rollouts在线估计每个问题的目标长度，然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上，LEAD取得了最高的准确率和准确-效率得分，同时生成比基础模型更短的输出。

论文推理模型推理效率自适应压缩强化学习 Chain-of-Thought

推荐理由：该方法为推理模型部署中的计算效率问题提供了自适应解决方案，对于实际应用中降低推理成本和延迟具有重要价值，特别是在数学推理等需要长链推理的场景。

19:10

arXiv: OpenAI@Wenxuan Li, Pedro R. A. S. Bassi, Xinze Zhou, Jakob Wasserthal, Alan L. Yuille, Zongwei Zhou

RadThinking是一个用于放射学纵向临床推理的视觉问答数据集，覆盖20362次CT扫描、9131名患者和2077名健康对照。数据集按推理深度分为三级：基础感知问题、单步规则推理问题和需要多步链式思维推理的组合问题。每个组合问题都附带基于临床报告标准的链式思维路径。该数据集首次将癌症筛查临床推理分层标注，支持训练和评估AI系统的推理能力而不仅仅是检测能力。

论文医学影像推理模型视觉问答临床报告标准癌症筛查

推荐理由：该数据集为训练AI进行符合临床指南的多步推理提供了标准化基准，对医学影像AI从感知向认知升级有重要价值。

17:56

AK@_akhaliq

Soohak是由数学家精心策划的基准测试，旨在评估大型语言模型（LLM）在科研级别数学问题上的能力。该基准涵盖高等数学的多个领域，包括代数、几何、分析等，要求模型不仅具备计算能力，还需展现推理和创新解题能力。这为评估LLM在专业数学研究中的应用潜力提供了更严格的测试标准。

论文推理模型 LLM 数学评测基准测试 Soohak

推荐理由：Soohak填补了现有数学评测基准在科研深度上的空白，为AI在数学领域的前沿应用提供了更精确的评估工具，有助于推动模型在数学推理和问题解决上的进步。

5月11日

22:18

NVIDIA AI@NVIDIAAI

NVIDIA AI在X上发布推文，总结了大多数Agent系统面临的核心问题：推理与工具解析在多轮交互中漂移、KV缓存复用失效、工具触发延迟。为此，NVIDIA正通过强化Dynamo框架，使其更好支持Claude Code、OpenClaw、Codex等Agent模式。关键改进包括：稳定提示词以支持KV复用并降低首个Token生成时间（TTFT）、保留多轮推理与工具调用的交错模式、实现流式工具分发而非回合末缓冲、以及对齐真实多轮Agent运行时的行为。这篇博客详细介绍了这些基础设施问题和修复模式，对于正在构建自定义Agent栈或推理端点的开发者有直接参考价值。

AI产品 Agent 推理模型工具调用低延迟 NVIDIA Dynamo

推荐理由：推文直指当前Agent系统在基础设施层面的共性痛点，NVIDIA给出的优化路径对降低延迟、保持上下文一致性及提升工具调用实时性有实际意义。

22:16

AK@_akhaliq

Apple 推出了新的技术 TIDE，其核心理念是让模型中的每一层都了解 token 的上下文信息。这不同于传统 transformer 仅顶层或特定层感知全局上下文，TIDE 通过在每一层引入上下文信息，可能提升模型对序列的理解和生成能力。相关论文已发布，提供了详细的技术细节。这项研究对改进大型语言模型和多模态模型的上下文利用有潜在意义，值得从业者关注。

论文推理模型多模态 Apple Transformer改进上下文理解

推荐理由：TIDE 是对 transformer 架构的改进，可能提高模型层间的信息流动效率，尤其在长序列或复杂上下文任务中，但尚需更多评估验证其实际收益。

19:03

arXiv: DeepSeek（学术论文）

该研究揭示了共享输出Token预算时，长思维链会挤占答案空间，导致准确率下降的“耦合税”现象。在GSM8K、MATH-500等任务中，非思维链模式在≤2048 Token下表现更优，且Qwen3模型呈逆缩放规律。作者提出截断-浪费分解模型预测关键点，并通过拆分预算生成方法（如IRIS）将MATH-500准确率提升至83.6%。结果表明测试时推理应被视为预算分配问题。

论文思维链 Token预算推理模型 Qwen3 DeepSeek-R1

推荐理由：该工作对当前LLM推理优化具有实际指导意义，提醒研究者在固定输出长度场景中平衡推理链与答案空间，避免盲目延长思维链。