AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:InsightReplay×
5月15日
10:08
arXiv: DeepSeek@Bin Lei, Caiwen Ding, Jiachen Yang, Ang Li, Xin Eric Wang
精选58
研究发现,思维链推理长度增加时,模型对早期关键洞察的注意力会逐渐减弱,导致准确率在达到峰值后下降。为此,研究者提出InsightReplay方法,让模型在推理过程中定期提取关键洞察并回放到当前生成位置附近,保持其可访问性。在8B和30B规模的Qwen3.5、DeepSeek-R1-Distill-Qwen、Gemma-4模型上,覆盖AIME、HMMT、GPQA Diamond、LiveCodeBench v5等基准测试,3轮InsightReplay在所有24个设置中均带来准确率提升,平均提升1.65个百分点,最高单设置提升达9.2个百分点。结果表明,测试时扩展的有效性不仅取决于推理量,还取决于关键中间洞察在长推理轨迹中的可访问性。
论文推理模型思维链注意力机制InsightReplay长上下文

推荐理由:长链推理的注意力衰减问题终于有了针对性解法,做推理模型优化或长上下文应用的团队值得关注——InsightReplay简单有效,可以直接在现有CoT框架上尝试。