10:37arXiv cs.LG@Haitong Liu, Deepak Narayanan Sridharan, David Steurer, Manuel WiedmerLee、Mehrotra和Zampetakis(FOCS'24)首次提出多项式时间算法学习高维截断高斯,但样本与时间非最优。本研究针对非平凡截断,给出高效算法,使用n = Õ(d²/ε²)个样本在总变差距离上达到ε误差。算法时间复杂度主要由计算经验协方差矩阵主导。该样本与时间复杂度在d和ε上均为最优,即使无截断时亦如此。关键创新在于用相对截断参数重新解释截断高斯低阶矩,从而直接恢复参数,避开耗时投影随机梯度下降。论文Gaussianhalfspace truncation样本复杂度学习理论算法推荐理由:这篇论文给出了学习半空间截断高斯分布的最优算法,样本和时间复杂度都达到理论下界,而且避开了繁琐的随机梯度下降,值得了解。原文
10:23arXiv cs.LG@Yang Pan, Helmut Bölcskei本文引入解集上的Hausdorff距离作为比较微分方程的自然度量,该度量捕捉两个方程在所有初始条件下的最坏情况分离,从而编码了识别问题的极小极大结构。作者建立了线性和非线性(Lipschitz/Hölder连续向量场)ODE的可识别性边界,明确了何时能从解数据中区分两个不同方程。利用该度量,推导了相关ODE类的度量熵估计,并量化了可靠恢复控制方程所需解观测的样本复杂度界限。论文ODE可识别性Hausdorff距离样本复杂度科学机器学习推荐理由:这篇论文给了你从数据识别ODE的理论底线,告诉你最少需要多少观测才能唯一确定方程,做科学机器学习的必读。原文
11:46arXiv cs.LG@Georgy Noarov, Aaron Roth这篇论文提出了一种确定性多校准算法,达到最小最大最优的样本复杂度率 O~(ε⁻³),解决了此前只有随机算法能达到该复杂度而确定性算法样本复杂度更差的开放问题。算法进一步推广到结果不可区分性(OI)和全预测器,给出了针对有限或有限覆盖测试集合的最优确定性预测器。这解决了CLNR26和OKK25等先前工作中明确提出的开放问题。论文多校准确定性算法全预测结果不可区分性样本复杂度推荐理由:这篇论文解决了机器学习里一个悬而未决的问题:确定性多校准算法终于能像随机算法一样高效了。如果你关心公平性、可信预测的样本效率,可以看看他们怎么做到的。原文
12:12arXiv cs.LG@Chenxiao Yang, Nathan Srebro, Zhiyuan Li精选该论文严格刻画了深度L、总参数W的Transformer的VC维,上界为O(L W log(T W)),下界为Ω(L W log(T W / L)),其中T为输入序列长度。进一步,论文给出了思维链学习(chain-of-thought)的样本复杂度紧界:教师强制(teacher forcing)方法需要O(L W log((T+T')W))个样本,而任何利用思维链数据的学习规则至少需要Ω(L W log((T+T')W / L))个样本,T'为自回归步数。这些结果首次为Transformer的泛化能力提供了理论保证,对理解大模型的数据效率有重要意义。论文TransformerVC维样本复杂度思维链泛化理论推荐理由:理论研究者终于有了Transformer样本复杂度的紧界——VC维和思维链学习的下界都算清楚了,做深度学习理论的团队值得细读。原文