10:57arXiv cs.LG@Meher Sai Preetam, Meher Bhaskar本文提出 Simplex-Constrained Sparse Bagging (SCSB),一种用于后训练压缩和概率校准的数学框架。标准 Bagging 集成(如随机森林、Bagged SVM 等)对所有基估计器赋予均匀投票权重,忽略了它们在不同区域的局部能力差异,导致模型过度自信。SCSB 通过在概率单纯形上最小化袋外损失,将集成剪枝和校准联合优化,并引入凹二次惩罚解决 L1 单纯形悖论(L1 范数在单纯形上为常数,无法直接剪枝)。该方法与模型无关,可实现高达 96% 的集成压缩,带来线性推理加速,同时降低期望校准误差,保持或提升泛化精度。论文集成学习模型压缩概率校准BaggingSCSB推荐理由:做集成学习或模型部署的团队,SCSB 能帮你把随机森林等 Bagging 模型压缩 96% 且校准更好,直接省推理成本。原文
14:31arXiv cs.AI@Aditya Tanna, Yash Desai, Pratinav Seth, Mohamed Bouadi, Nassim Bouarour, Vinay Kumar Sankarapu精选一项新研究评估了六种现代表格基础模型(TFM)在153个OpenML分类任务上的集成效果。结果显示,这些模型高度冗余,平均成对Q统计量达0.961,接近1,导致任何凸组合的性能提升有限。最佳集成策略(两级级联堆叠)仅比最强单模型提升0.18%准确率,但计算成本增加253倍。统计检验表明,三种集成策略与最佳单模型处于同一等价组,而其他三种集成甚至显著更差。逻辑回归元学习器虽然提升了准确率和ROC-AUC,但严重破坏了校准,导致对数损失最差。研究建议实际应用中优先使用贪心选择策略。论文表格基础模型集成学习校准模型冗余OpenML推荐理由:做表格数据建模的团队会发现,盲目集成TFM可能得不偿失——计算成本飙升但收益微乎其微,甚至可能破坏模型校准。建议点开看看,避免踩坑。原文