全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

11:11

11:11

arXiv cs.LG@Simone Di Gregorio, Anupam Gupta, Stefano Leonardi, Matteo Russo

论文研究在线凸优化（OCO），其中学习者每轮使用一次δ-噪声成对探测比较两个点的损失。主要定理给出遗憾界O(min{√(dT ln T), (dT ln T)/(k|1-2δ|)})，该界对T、k和δ紧。即使探测预算k子线性，也能改进最坏情况遗憾。对于专家设置，在有限决策集上得到完全紧的速率。分析通过方差减少效应和二阶指数权重方法揭示探测收益。

论文 OCO Pairwise Probes 噪声探测遗憾界凸优化

推荐理由：探测可降低在线学习遗憾

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月20日

10:16

10:16

arXiv cs.AI@Pierre Boudart, Pierre Gaillard, Alessandro Rudi

精选

该论文研究了基于多项逻辑（MNL）模型的马尔可夫决策过程（MDPs）的强化学习问题。现有算法对MNL混合MDPs的遗憾界为Õ(dH²√T)，其中d是特征维度，H是回合长度，T是回合数。作者引入了一个问题依赖常数σ̄_T（≤1/2），衡量最优下游值函数沿学习轨迹的归一化平均方差，并提出了一个遗憾界为Õ(dH²σ̄_T√T)的算法。该算法在最坏情况下恢复现有界，在结构化MDPs（如KL约束鲁棒MDPs）中可将H依赖因子降低H倍。此外，论文证明了匹配的下界Ω(dH²σ̄_T√T)，首次完全刻画了MNL混合MDPs的遗憾复杂度（达到对数因子内的极小化最优）。

论文强化学习 MDP 多项逻辑模型遗憾界极小化最优

推荐理由：这篇论文首次给出了MNL混合MDPs的极小化最优遗憾界，对研究强化学习理论或设计高效算法的研究者来说，是理解问题复杂度的重要参考。