全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

10:51

arXiv: Google DeepMind@Junjian Zhang, Hao Tan, Ruonan Li, Dong Zhu, Aiping Li, Zhaoquan Gu

ARB4WM提出一个统一的评估框架，用于测试世界模型在视觉扰动下的对抗鲁棒性。该框架定义了五个白盒损失目标，涵盖策略、价值和潜在动力学三个层面。在MetaWorld和DeepMind Control Suite的20个任务上评估了四种Dreamer-style代理。结果显示，针对值估计、潜在表示和RSSM动力学的攻击与直接策略破坏同等有害，早期或频繁扰动尤其严重。代码已开源并提供使用接口。

AI模型 ARB4WM Dreamer 世界模型对抗鲁棒性连续控制

推荐理由：想检验你的世界模型扛不扛揍？ARB4WM这个新基准专门测视觉扰动下的鲁棒性，比单看动作空间全面多了。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

13:09

arXiv cs.AI@Anton Bolychev, Georgiy Malaniya, Sinan Ibrahim, Pavel Osinenko

该论文提出了一种新的强化学习训练方法，通过嵌入已有的基线策略来提升训练效率。方法在训练初期依赖基线策略，逐步将控制权转移给可训练的学习策略，最终使学习策略独立运行。理论分析证明了该方法在目标到达概率上的优势，实验表明其在连续控制任务中表现优于或持平于现有方法，且全程保持高目标到达率。

论文强化学习策略增强基线策略模型无关连续控制

推荐理由：做强化学习训练的团队可以省下从头调参的功夫——用现有基线策略做跳板，训练效率更高且最终策略更强，值得在连续控制任务上试试。

原文

11:57

arXiv cs.AI@Boshu Lei, Kostas Daniilidis, Antonio Loquercio

精选

本文提出 RLDT（Reinforcement Learning with Density Transport），一种在线强化学习算法，用于微调连续控制问题中的流匹配策略。核心思想是将策略改进视为动作密度向高奖励区域的传输，与流匹配模型的传输公式自然对齐。RLDT 使用 Stein 变分梯度下降（SVGD）从最大熵 RL 目标构建传输场，然后微调预训练的流匹配策略以对齐该场。通过预期目标估计近似中间去噪步骤的动作，避免了不稳定的反向传播。实验表明，RLDT 在奖励质量和收敛速度上优于基线，适用于密集/稀疏奖励及基于状态/视觉的长期机器人操作任务。

论文强化学习流匹配密度传输连续控制机器人操作

推荐理由：RLDT 解决了流匹配策略在强化学习中难以微调的痛点，做连续控制或机器人操作的团队可以直接参考其密度传输思路，比蒸馏或近似分布的方法更高效。

原文

5月25日

10:04

arXiv: OpenAI@Shuai Zhen, Yifan Zhang, Yuling Wang, Yanhua Yu

强化学习长期面临样本效率低下的问题，利用群不变马尔可夫决策过程（G-invariant MDPs）是一种有前景的缓解方法。现有工作主要关注基于图像的强化学习和旋转对称性（如SO(2)），而基于状态的强化学习和反射对称性尚未充分探索。本文提出Reflex范式，专注于基于状态的连续控制任务，利用反射对称性（包括轴向反射和双侧反射），并与PPO和SAC等算法无缝集成。通过理论分析对称性保持的最优值函数和策略，Reflex引入对称性正则化机制，在OpenAI Gym和DeepMind Control基准测试中显著提升了样本效率和性能。代码已开源。

论文强化学习样本效率反射对称性连续控制开源/仓库

推荐理由：Reflex解决了强化学习样本效率低下的痛点，尤其适合做连续控制任务的RL研究者——直接集成PPO/SAC就能提升性能，值得一试。

原文

5月20日

11:41

arXiv: Google DeepMind@Bosun Liang, Shuo Pei, Zirui Chen, Chuanzhi Fan, Chen Sun, Yuankai Wu, Huachun Tan, Yong Wang

精选

强化学习常产生高频振荡控制信号，影响物理部署的安全与稳定。显式动作分块虽能预测固定轨迹，但会扩大策略输出维度，导致优化困难。本文提出双窗口平滑（DWS）框架，通过隐式动作分块实现平滑连续控制，无需扩展动作空间。DWS包含执行窗口（确保物理平滑）和价值窗口（修正评论家偏差），并引入轻量级时序正则化器。在DeepMind控制套件、工业能源管理及视觉自动驾驶任务中，DWS超越现有方法，实现100%成功率。

论文强化学习连续控制动作分块平滑控制 DWS

推荐理由：做机器人控制或自动驾驶的团队，DWS解决了强化学习控制信号抖动这个老大难问题，无需增加模型复杂度就能提升安全性和成功率，值得在你们的仿真或实机任务上试试。

原文

5月12日

19:11

arXiv: Google DeepMind@Jiamin He, Samuel Neumann, Jincheng Mei, Adam White, Martha White

本文探讨了在连续动作强化学习中混合策略相对于单峰策略的优势及其实用性。作者指出，尽管混合策略在理论上更灵活，但标准算法如SAC未能充分利用这一优势，主要原因是缺乏低方差的重新参数化技巧。为此，他们提出了边际化重新参数化（MRP）估计器，证明了其比标准似然比方法方差更低。实验表明，MRP混合策略显著优于似然比方法，在某些任务上甚至达到或超越高斯策略。该研究将MRP混合策略从理论好奇转化为实用工具，为强化学习中的策略设计提供了新思路。

论文强化学习混合策略连续控制重新参数化 MRP

推荐理由：该论文提出了MRP估计器，解决了混合策略在强化学习中的方差问题，实验验证了其有效性，对从事连续控制任务的研究者和工程师具有参考价值。

原文