全部 AI 动态 · AI 热点

6月26日

10:37

10:37

arXiv cs.LG@Haitong Liu, Deepak Narayanan Sridharan, David Steurer, Manuel Wiedmer

Lee、Mehrotra和Zampetakis（FOCS'24）首次提出多项式时间算法学习高维截断高斯，但样本与时间非最优。本研究针对非平凡截断，给出高效算法，使用n = Õ(d²/ε²)个样本在总变差距离上达到ε误差。算法时间复杂度主要由计算经验协方差矩阵主导。该样本与时间复杂度在d和ε上均为最优，即使无截断时亦如此。关键创新在于用相对截断参数重新解释截断高斯低阶矩，从而直接恢复参数，避开耗时投影随机梯度下降。

论文 Gaussian halfspace truncation 样本复杂度学习理论算法

推荐理由：这篇论文给出了学习半空间截断高斯分布的最优算法，样本和时间复杂度都达到理论下界，而且避开了繁琐的随机梯度下降，值得了解。

10:23

10:23

arXiv cs.LG@Yang Pan, Helmut Bölcskei

本文引入解集上的Hausdorff距离作为比较微分方程的自然度量，该度量捕捉两个方程在所有初始条件下的最坏情况分离，从而编码了识别问题的极小极大结构。作者建立了线性和非线性（Lipschitz/Hölder连续向量场）ODE的可识别性边界，明确了何时能从解数据中区分两个不同方程。利用该度量，推导了相关ODE类的度量熵估计，并量化了可靠恢复控制方程所需解观测的样本复杂度界限。

论文 ODE 可识别性 Hausdorff距离样本复杂度科学机器学习

推荐理由：这篇论文给了你从数据识别ODE的理论底线，告诉你最少需要多少观测才能唯一确定方程，做科学机器学习的必读。

6月19日

11:46

11:46

arXiv cs.LG@Georgy Noarov, Aaron Roth

这篇论文提出了一种确定性多校准算法，达到最小最大最优的样本复杂度率 O~(ε⁻³)，解决了此前只有随机算法能达到该复杂度而确定性算法样本复杂度更差的开放问题。算法进一步推广到结果不可区分性（OI）和全预测器，给出了针对有限或有限覆盖测试集合的最优确定性预测器。这解决了CLNR26和OKK25等先前工作中明确提出的开放问题。

论文多校准确定性算法全预测结果不可区分性样本复杂度

推荐理由：这篇论文解决了机器学习里一个悬而未决的问题：确定性多校准算法终于能像随机算法一样高效了。如果你关心公平性、可信预测的样本效率，可以看看他们怎么做到的。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

12:12

12:12

arXiv cs.LG@Chenxiao Yang, Nathan Srebro, Zhiyuan Li

精选

该论文严格刻画了深度L、总参数W的Transformer的VC维，上界为O(L W log(T W))，下界为Ω(L W log(T W / L))，其中T为输入序列长度。进一步，论文给出了思维链学习（chain-of-thought）的样本复杂度紧界：教师强制（teacher forcing）方法需要O(L W log((T+T')W))个样本，而任何利用思维链数据的学习规则至少需要Ω(L W log((T+T')W / L))个样本，T'为自回归步数。这些结果首次为Transformer的泛化能力提供了理论保证，对理解大模型的数据效率有重要意义。

论文 Transformer VC维样本复杂度思维链泛化理论

推荐理由：理论研究者终于有了Transformer样本复杂度的紧界——VC维和思维链学习的下界都算清楚了，做深度学习理论的团队值得细读。