optimization·general

optimization

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
115
§ 01综述

近期强化学习优化领域集中关注策略梯度方法的改进,特别是面向推理任务的高效性与稳定性。核心进展包括:

  • Agent Explorative Policy Optimization 提升多模态推理:该方法通过增强智能体探索机制,在多模态任务中显著提升推理能力,展现了优化算法在多模态大模型中的应用潜力。(原文链接
  • ESPO:早期停止PPO节省推理token:ESPO在PPO训练过程中提前停止部分步骤,可节省20%推理token,同时提升数学推理性能,有效降低计算成本。(arXiv: DeepSeek
  • GRPO优势坍塌诊断与AVSPO缓解方案:研究指出GRPO中优势函数估计存在坍塌问题,并提出AVSPO方法,通过自适应优势缩放缓解此问题,提升优化稳定性。(arXiv cs.LG
  • 当前焦点:优化算法正从通用强化学习转向特定领域(如数学推理、多模态)的高效变体,平衡探索与利用、减少计算开销是核心挑战。未来观察点:这些改进能否在更大规模模型和真实场景中保持优势,以及是否会出现统一的高效优化框架。

    § 02相关报道10 条在档
    1. 01
      APPO:细粒度决策点强化学习提升AI智能体工具调用能力
      arXiv cs.AI
    2. 02
      Amortized Neural Optimization:可微代理模型实现预布局信号完整性设计空间探索
      arXiv cs.LG
    3. 03
      DrPO:一步生成模型偏好优化的新方法
      arXiv cs.LG
    4. 04
      Agent Explorative Policy Optimization 提升多模态智能体推理能力
      AK
    5. 05
      ESPO:早期停止PPO,节省20%推理token并提升数学推理性能
      arXiv: DeepSeek
    6. 06
      GRPO优势坍塌问题诊断与AVSPO缓解方案
      arXiv cs.LG
    7. 07
      OpenAI发布PPO算法:更简单的强化学习
      OpenAI Blog
    8. 08
      进化策略可替代强化学习,性能相当且更简便
      OpenAI Blog
    9. 09
      一阶元学习算法研究
      OpenAI Blog
    10. 10
      OpenAI研究:衡量古德哈特定律
      OpenAI Blog
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/optimization