全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月12日

19:11

19:11

arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe Li

LEAD提出了一种在线自适应推理压缩方法，解决大推理模型（如OpenAI o1、DeepSeek-R1）在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束，难以平衡正确性与效率，且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡，并基于模型自身正确rollouts在线估计每个问题的目标长度，然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上，LEAD取得了最高的准确率和准确-效率得分，同时生成比基础模型更短的输出。

论文推理模型推理效率自适应压缩强化学习 Chain-of-Thought

推荐理由：该方法为推理模型部署中的计算效率问题提供了自适应解决方案，对于实际应用中降低推理成本和延迟具有重要价值，特别是在数学推理等需要长链推理的场景。