LEAD:大模型推理高效自适应压缩方法

精选理由

该方法为推理模型部署中的计算效率问题提供了自适应解决方案,对于实际应用中降低推理成本和延迟具有重要价值,特别是在数学推理等需要长链推理的场景。

AI 摘要

LEAD提出了一种在线自适应推理压缩方法,解决大推理模型(如OpenAI o1、DeepSeek-R1)在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束,难以平衡正确性与效率,且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡,并基于模型自身正确rollouts在线估计每个问题的目标长度,然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上,LEAD取得了最高的准确率和准确-效率得分,同时生成比基础模型更短的输出。

AI 翻译 · 中文

LEAD提出了一种在线自适应推理压缩方法,解决大推理模型(如OpenAI o1、DeepSeek-R1)在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束,难以平衡正确性与效率,且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡,并基于模型自身正确rollouts在线估计每个问题的目标长度,然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上,LEAD取得了最高的准确率和准确-效率得分,同时生成比基础模型更短的输出。

  • Greg Brockman Blog05-11 05:03原文
  • OpenAI05-11 14:16原文
  • AK05-12 13:55原文
  • Simon Willison’s Weblog05-12 23:53原文
  • Andrej Karpathy05-14 05:37原文