全部 AI 动态 · AI 热点

6月25日

01:30

01:30Google Research: Blog（资讯）

精选

Google Research提出'Thinking to Recall'假设，认为链式思维（Chain-of-Thought）推理的本质是组合LLM参数中分散存储的知识片段。基于PaLM 2模型的实验显示，在GSM8K和MATH等数学推理基准上，推理步骤让模型更有效地调用习得的知识。该工作揭示了注意力机制在定位和整合参数化知识过程中的关键作用。

论文 Chain-of-Thought PaLM 2 参数化知识推理机制知识检索

推荐理由：Google用PaLM 2发现，模型不靠堆算力背答案，而是靠推理串起脑袋里分散的知识点。比直接猜准多了。

原文

6月20日

02:27

Stanford AI Lab@StanfordAILab

斯坦福AI实验室的SAIL博客发布新文章，由Peter Bhase和Chris Potts共同撰写，系统梳理了CoT（思维链）监控作为AI安全热点问题的起源。文章回顾了相关研究的历史演进，分析了该概念如何从技术讨论演变为关键安全议题。

论文 SAIL CoT Chain-of-Thought AI安全

推荐理由：斯坦福AI实验室的两位研究者梳理了CoT监控的来龙去脉，想理解AI安全前沿热点的演变，这篇博客值得看。

原文

6月17日

10:21

arXiv cs.LG@Yuming Chen, Yuxin Xie, Tao Zhou, Yi Zhou

提出CERS框架，将链式思维推理集成到半监督医学图像分割中，解决视觉-语义不匹配问题。利用大语言模型生成语言推理描述构建知识池，并设计语义感知参考选择策略，通过形态过滤和CoT一致性消除硬负样本。引入多尺度坐标注意力模块融合推理上下文，在多个基准上优于现有方法，尤其改善边界模糊和语义不一致。

论文 CERS Chain-of-Thought 医学图像分割半监督学习大语言模型

推荐理由：这篇论文用CoT推理帮医学图像分割识别病理不同的病变，比只看像素的旧方法靠谱得多，尤其是处理边界模糊的情况。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

10:43

arXiv cs.AI@Ankit Bhattacharjee, Krityapriya Bhaumik

RDS Fusion是一种混合神经符号架构，通过压缩链式思维（CoT）推理轨迹实现零样本讽刺检测，无需监督微调。在TweetEval测试集（N=734）上，RDS取得78.1%准确率和0.777宏F1，匹配微调BERTweet的性能上限。在严重不平衡的iSarcasm数据集上，其冻结CoT管道过滤了22.5%的分布外幻觉，零样本宏F1达0.6726，Ironic F1为0.4821，优于多个有监督SemEval集成模型。统计消融实验表明，仅当三种信号完全融合时才产生显著改善（p=0.005）。

论文 RDS Fusion 讽刺检测混合神经符号 Chain-of-Thought 社交文本

推荐理由：这篇论文提出了RDS Fusion，不用微调就能在讽刺检测上达到和微调BERTweet一样的水平，还在难数据集上比很多监督方法强。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月12日

19:11

arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe Li

LEAD提出了一种在线自适应推理压缩方法，解决大推理模型（如OpenAI o1、DeepSeek-R1）在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束，难以平衡正确性与效率，且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡，并基于模型自身正确rollouts在线估计每个问题的目标长度，然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上，LEAD取得了最高的准确率和准确-效率得分，同时生成比基础模型更短的输出。

论文推理模型推理效率自适应压缩强化学习 Chain-of-Thought

推荐理由：该方法为推理模型部署中的计算效率问题提供了自适应解决方案，对于实际应用中降低推理成本和延迟具有重要价值，特别是在数学推理等需要长链推理的场景。

原文