01:30Google Research: Blog(资讯)精选Google Research提出'Thinking to Recall'假设,认为链式思维(Chain-of-Thought)推理的本质是组合LLM参数中分散存储的知识片段。基于PaLM 2模型的实验显示,在GSM8K和MATH等数学推理基准上,推理步骤让模型更有效地调用习得的知识。该工作揭示了注意力机制在定位和整合参数化知识过程中的关键作用。论文Chain-of-ThoughtPaLM 2参数化知识推理机制知识检索1 个信源在谈推荐理由:Google用PaLM 2发现,模型不靠堆算力背答案,而是靠推理串起脑袋里分散的知识点。比直接猜准多了。原文
02:27Stanford AI Lab@StanfordAILab斯坦福AI实验室的SAIL博客发布新文章,由Peter Bhase和Chris Potts共同撰写,系统梳理了CoT(思维链)监控作为AI安全热点问题的起源。文章回顾了相关研究的历史演进,分析了该概念如何从技术讨论演变为关键安全议题。论文SAILCoTChain-of-ThoughtAI安全推荐理由:斯坦福AI实验室的两位研究者梳理了CoT监控的来龙去脉,想理解AI安全前沿热点的演变,这篇博客值得看。原文
10:21arXiv cs.LG@Yuming Chen, Yuxin Xie, Tao Zhou, Yi Zhou提出CERS框架,将链式思维推理集成到半监督医学图像分割中,解决视觉-语义不匹配问题。利用大语言模型生成语言推理描述构建知识池,并设计语义感知参考选择策略,通过形态过滤和CoT一致性消除硬负样本。引入多尺度坐标注意力模块融合推理上下文,在多个基准上优于现有方法,尤其改善边界模糊和语义不一致。论文CERSChain-of-Thought医学图像分割半监督学习大语言模型推荐理由:这篇论文用CoT推理帮医学图像分割识别病理不同的病变,比只看像素的旧方法靠谱得多,尤其是处理边界模糊的情况。原文
10:43arXiv cs.AI@Ankit Bhattacharjee, Krityapriya BhaumikRDS Fusion是一种混合神经符号架构,通过压缩链式思维(CoT)推理轨迹实现零样本讽刺检测,无需监督微调。在TweetEval测试集(N=734)上,RDS取得78.1%准确率和0.777宏F1,匹配微调BERTweet的性能上限。在严重不平衡的iSarcasm数据集上,其冻结CoT管道过滤了22.5%的分布外幻觉,零样本宏F1达0.6726,Ironic F1为0.4821,优于多个有监督SemEval集成模型。统计消融实验表明,仅当三种信号完全融合时才产生显著改善(p=0.005)。论文RDS Fusion讽刺检测混合神经符号Chain-of-Thought社交文本推荐理由:这篇论文提出了RDS Fusion,不用微调就能在讽刺检测上达到和微调BERTweet一样的水平,还在难数据集上比很多监督方法强。原文
19:11arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe LiLEAD提出了一种在线自适应推理压缩方法,解决大推理模型(如OpenAI o1、DeepSeek-R1)在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束,难以平衡正确性与效率,且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡,并基于模型自身正确rollouts在线估计每个问题的目标长度,然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上,LEAD取得了最高的准确率和准确-效率得分,同时生成比基础模型更短的输出。论文推理模型推理效率自适应压缩强化学习Chain-of-Thought5 个信源在谈推荐理由:该方法为推理模型部署中的计算效率问题提供了自适应解决方案,对于实际应用中降低推理成本和延迟具有重要价值,特别是在数学推理等需要长链推理的场景。原文