全部 AI 动态 · AI 热点

5月12日

19:11

arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe Li

LEAD提出了一种在线自适应推理压缩方法，解决大推理模型（如OpenAI o1、DeepSeek-R1）在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束，难以平衡正确性与效率，且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡，并基于模型自身正确rollouts在线估计每个问题的目标长度，然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上，LEAD取得了最高的准确率和准确-效率得分，同时生成比基础模型更短的输出。

论文推理模型推理效率自适应压缩强化学习 Chain-of-Thought

推荐理由：该方法为推理模型部署中的计算效率问题提供了自适应解决方案，对于实际应用中降低推理成本和延迟具有重要价值，特别是在数学推理等需要长链推理的场景。

原文

5月11日

22:16

OpenAI@OpenAI

OpenAI 发布文章指出，思维链监控是防御AI智能体对齐失败的关键层。为确保可监控性，他们避免在强化学习中惩罚错误推理。研究团队发现，少量意外的思维链评分影响了已发布模型，并分享了相关分析。这一发现强调了保持AI推理过程透明的重要性，对智能体安全研究具有指导意义。

论文思维链 AI安全/对齐智能体 OpenAI 强化学习

推荐理由：该分析揭示了思维链监控在实际部署中的挑战，为AI安全领域提供了具体案例和避坑建议，对研究者和工程师有直接参考价值。

原文

22:16

AK@_akhaliq

Skill1 提出了一种通过强化学习统一演化技能增强智能体的方法，旨在提升智能体在复杂任务中的泛化能力和学习效率。该方法将技能学习与强化学习框架结合，使智能体能够自主发现、优化和复用技能模块，从而适应多种任务场景。实验表明，Skill1 在多个基准测试中优于传统方法，尤其在长期规划和策略迁移方面表现突出。这项工作为构建更通用、更自主的智能体系统提供了新思路。

论文智能体强化学习技能学习泛化 Skill1

推荐理由：这项研究为技能增强型智能体的设计与训练提供了统一的强化学习框架，路径清晰且实证有效，对推动智能体从单任务到多任务泛化具有实际参考价值。

原文

22:16

AK@_akhaliq

MARBLE（Multi-Aspect Reward Balance for Diffusion RL）提出了一种新方法，旨在解决扩散模型强化学习中多个奖励信号之间的平衡问题。通过动态调整不同奖励方面的权重，该方法能在图像生成等任务中同时优化多个目标，如质量和多样性。论文展示了在多个基准测试上的改进效果，表明该方法能有效提升生成质量并减少模式崩溃。这对扩散模型的微调和可控生成具有实际意义。

论文扩散模型强化学习多目标优化图像生成

推荐理由：该方法直接回应了扩散模型RL中多目标优化的核心挑战，为提升生成质量和多样性提供了一种实用平衡策略。

原文

13:03

13:03Greg Brockman Blog（博客/媒体）

70°

OpenAI 在 Benchmark 活动中首次展示了其 AI 系统 OpenAI Five，该系统在 Dota 游戏中与人类玩家对战。OpenAI Five 通过每天自我对弈 180 年的训练，掌握了复杂的团队协作和实时策略，而此前该系统仅适用于 1v1 模式。AI 系统由五个神经网络组成，其计算能力相当于蚂蚁大脑，但展示了从游戏中学习策略的潜力。OpenAI 强调 Dota 是训练 AI 的理想环境，涉及不完美信息和复杂组合，而类似技术已成功应用于机器人控制。随着 AI 计算能力每 3.5 个月翻一番，这类技术未来将更加普及。

AI产品 OpenAI Five Dota 强化学习多智能体协作游戏AI

推荐理由：该事件展示了强化学习在复杂博弈中的突破，OpenAI Five 从 1v1 扩展到 5v5 团队对抗，表明 AI 可迁移学习策略能力。对 AI 从业者而言，这验证了自我博弈训练范式的有效性，并为多智能体协作研究提供了基准。

原文

13:03

13:03Greg Brockman Blog（博客/媒体）

精选85°

OpenAI Five在总决赛中首次公开击败Dota 2世界冠军OG，这是AI首次在现场比赛中战胜顶级电竞职业战队。该AI基于深度强化学习，经过10个月（相当于45000年游戏内时间）的自我对弈训练，形成了独特的创新玩法。尽管是AI首次与人类冠军公开较量，但OpenAI强调这一事件的核心是让公众直观感受AI技术的真实能力。该通用学习代码未来可应用于机器人控制、辅助系统等领域。

AI产品 AI里程碑强化学习游戏AI OpenAI Five Dota 2

推荐理由：此事件是强化学习在复杂策略游戏中的重大突破，证明了无人工编码的AI能够通过自我学习达到超人水平。它对AI通用性（代码不依赖特定游戏）和未来应用（如机器人交互）有深远启示。

原文

11:44

11:44arXiv cs.LG（学术论文）

研究者提出了一种名为Susceptibilities的技术，用于深度强化学习中神经网络的可解释性分析。该方法通过研究损失扰动对观测值后验期望的影响，扩展到RL的遗憾（regret）设置中。在简单的网格世界模型中，Susceptibilities能够揭示参数空间内模型发展的内部特征，而这些特征通过单纯学习策略发展无法检测。验证实验使用激活引导（activation-steering）证实了结果，并讨论了该方法扩展到RLHF后训练的可能性。这一工作为理解RL智能体的行为和学习过程提供了新的分析工具。

论文强化学习可解释性神经网络 RLHF

推荐理由：对强化学习研究者有参考价值，提供了超越传统策略分析的模型内部状态洞察方法，尤其可用于分析RLHF训练中的阶段变化。

原文

11:44

11:44arXiv cs.AI（学术论文）

70°

该论文针对命令行界面（CLI）智能体在大型代码库中面临的两个瓶颈：从部分观察中识别任务相关证据，以及稀疏的终端奖励分配。研究者提出了σ-Reveal，一种推理时选择token预算上下文的机制；以及Action Advantage Assignment（A³），一种利用抽象语法树（AST）的动作子链残差和轨迹边际的强化学习方法。此外，他们还构建了ShellOps数据集套件，用于评估仓库环境中的CLI任务。这项研究为CLI智能体学习提供了更结构化的奖励信号，有望提升智能体在复杂代码交互中的表现。

论文智能体强化学习代码库交互 CLI AST

推荐理由：该工作提出了CLI智能体学习的关键创新：σ-Reveal和A³分别解决了选择性观察和信用分配问题，对提升Agent在复杂代码环境中的自主操作能力有显著意义。

原文

11:44

11:44arXiv cs.AI（学术论文）

这项研究通过fMRI记录人类学习新视频游戏时的脑活动，对比了前沿推理模型（LRMs）与深度强化学习代理及贝叶斯理论模型。研究发现LRMs不仅在游戏表现上最接近人类，还能以数量级优势预测人脑活动，且这种对齐主要源于模型对游戏状态的上下文表示而非下游推理。实验证明了LRMs作为复杂环境中人类学习与决策的计算模型的潜力。

论文推理模型行为对齐脑活动预测强化学习游戏学习

推荐理由：该研究首次系统比较了前沿推理模型与强化学习在行为与脑活动对齐上的差异，为理解AI与人类认知机制的一致性提供了重要证据，对认知科学和AI体设计有参考价值。

原文

11:42

11:42arXiv cs.LG（学术论文）

该论文首次提出基于值函数的指数效用强化学习算法，解决固定风险厌恶下折扣马尔可夫决策过程的优化问题。作者推导了两种Q值扩展，证明相关算子在L∞和sup-log/Thompson度量下是压缩的，并刻画了不动点。提出了两时间尺度Q学习算法，证明几乎必然收敛并给出有限时间收敛率；另有一时间尺度幂律算子算法，通过局部Lipschitz、单调性和Dini导数证明收敛。这项工作为风险敏感RL提供了理论基础。

论文强化学习风险敏感指数效用 Q学习收敛性分析

推荐理由：该研究为指数效用目标下的RL提供了严格的值基算法与收敛证明，填补了理论空白。对风险敏感决策领域（如金融、自动驾驶）的实践者有重要参考价值。

原文

11:42

11:42arXiv cs.AI（学术论文）

70°

该论文提出了一种名为“rubric-grounded reinforcement learning (RL)”的框架，将奖励分解为多个可验证的加权标准，由冻结的LLM评判器给每个回应评分，从而提供部分信用优化信号。作者从约10万份科技文档中提取评判规则，并利用GRPO方法微调Llama-3.1-8B-Instruct模型，在保留的评判规则评估上获得了71.7%的归一化奖励。经GRPO训练的策略在GSM8K、MATH、GPQA Main和GPQA Diamond等四个未参与训练的推理基准上均优于基础模型。这一结果表明，结构化、文档依赖的奖励能够改善保留评判规则的性能，并诱发可迁移的推理行为。该框架为提升大模型推理的泛化能力提供了一种新的训练范式。

论文推理模型强化学习 LLM-as-judge GRPO 泛化性

推荐理由：该研究通过分解奖励为多标准评判规则，实现了更细粒度的优化信号，在多个推理基准上验证了迁移效果，对大模型推理能力的训练方法有重要参考价值。

原文