全部 AI 动态 · AI 热点

6月19日

09:41

09:41

arXiv cs.LG@Ziheng Wei, Annie Qu, Rui Miao

离线强化学习中，即时奖励常因记录稀疏或审查而缺失，导致评估偏差。本文聚焦奖励缺失非随机(MNAR)场景，在有限时域MDP下研究离线策略评估(OPE)。作者利用未来状态作为影子变量，结合奖励依赖倾向模型辨识全数据条件均值奖励。进一步引入桥函数并通过min-max估计避免双重采样，提出Fitted-Q-Evaluation风格估计器。在模拟数据和MIMIC-III Sepsis数据上，该方法在误差和一致性上优于现有基线。

论文 OPE MNAR MDP 缺失数据离线强化学习

推荐理由：想处理真实场景奖励缺失的强化学习玩家可以看这篇，用影子变量和桥函数解决偏差问题，实验比传统方法稳。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月20日

10:16

10:16

arXiv cs.AI@Pierre Boudart, Pierre Gaillard, Alessandro Rudi

精选

该论文研究了基于多项逻辑（MNL）模型的马尔可夫决策过程（MDPs）的强化学习问题。现有算法对MNL混合MDPs的遗憾界为Õ(dH²√T)，其中d是特征维度，H是回合长度，T是回合数。作者引入了一个问题依赖常数σ̄_T（≤1/2），衡量最优下游值函数沿学习轨迹的归一化平均方差，并提出了一个遗憾界为Õ(dH²σ̄_T√T)的算法。该算法在最坏情况下恢复现有界，在结构化MDPs（如KL约束鲁棒MDPs）中可将H依赖因子降低H倍。此外，论文证明了匹配的下界Ω(dH²σ̄_T√T)，首次完全刻画了MNL混合MDPs的遗憾复杂度（达到对数因子内的极小化最优）。

论文强化学习 MDP 多项逻辑模型遗憾界极小化最优

推荐理由：这篇论文首次给出了MNL混合MDPs的极小化最优遗憾界，对研究强化学习理论或设计高效算法的研究者来说，是理解问题复杂度的重要参考。

5月12日

19:11

19:11

arXiv cs.AI@Linus Heck, Filip Macák, Roman Andriushchenko, Milan Češka, Sebastian Junges

该论文提出将经典Shields模型扩展到概率安全场景的新框架。传统Shields确保绝对安全，但概率安全（允许以一定概率发生不良事件）更复杂。论文证明了强安全和最大允许性无法同时保证，提出了两种弱化保证的自然Shields，以及一种保持强安全保证的离线/在线构造方法。实验表明这些新Shields在计算可行性和实用性上具有优势，为自主智能体安全提供新工具。

论文 AI安全 Shields MDP 概率安全验证

推荐理由：该研究为安全关键型AI系统（如自动驾驶、机器人）的概率安全验证提供了理论框架和实用工具，弥补了现有Shields方法在概率场景中的不足。