全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:07

11:07

arXiv cs.LG@Ardianto Wibowo, Paulo E Santos, Amer Baghdadi, Matthew Stephenson, Karl Sammut, Jean-Philippe Diguet

该论文提出一种基于因果起源的统一分类法，用于描述强化学习（RL）中的分布偏移。作者将监督学习中的经典数据集偏移原则迁移到RL，通过部分可观测马尔可夫决策过程（POMDP）将交互分解为状态分布、观测过程、策略、奖励和转移动力学等结构组件。分类法区分了内部（智能体驱动）和外部（环境驱动）两种分布偏移，并从偏移时间边界角度定义了显式、隐式和混合偏移。该方法统一了分布内/分布外（ID/OOD）泛化与非平稳性，并引入性能退化与恢复指标来评估偏移影响和适应性。

论文强化学习分布偏移 POMDP 泛化因果分类

推荐理由：这篇论文把RL里训练和测试环境不一致的问题，用因果原因做了系统分类，还统一了OOD泛化和非平稳性的视角，搞清楚偏移根源才能更好做鲁棒性分析。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？