10:59arXiv cs.AI@Alina Bazarova, Johann Fredrik Jadebeck, Henrik Zunker, Carolina J. Klett-Tammen, Torben Heinsohn, Wolfgang Wiechert, Katharina Noeh, Stefan Kesselheim该研究将基于模拟推理(SBI)的神经后验估计用于SECIR流行病学模型的贝叶斯校准,并使用2020年德国COVID-19 ICU入住数据。在31天推断窗口中,SBI恢复的后验分布与MCMC高度一致,准确再现ICU轨迹。在更具挑战的201天重构问题中,SBI保留了主要后验结构,尽管不确定性增加。SBI在单GPU上完成31天推断仅需60-70秒,而MCMC需要约1000秒;201天任务中SBI平均157秒,MCMC超过19000秒。结果表明SBI为快速近实时疫情分析提供了高效框架。论文SBIMCMCCOVID-19流行病学模型贝叶斯推断推荐理由:这篇论文用COVID-19数据实测,SBI比MCMC快几十倍,精度不输,适合需要快速迭代的流行病学建模场景。原文
10:20arXiv cs.LG@Graham Gibson, John Tipton, Kellin Rumsey, Natalie KleinRibbon是一种针对Dirichlet重加权bootstrap的可扩展近似方法,通过单次拟合模型后的影响函数线性化替代重复重拟合。该方法仅需事后线性代数运算即可保持贝叶斯bootstrap的一阶数据重加权结构,并可通过验证数据调整不确定性尺度。在合成回归、MNIST分类和California Housing基准测试中,Ribbon在避免重复模型训练的同时提供了有竞争力的预测性能和改进的校准效果。论文Ribbon不确定性量化贝叶斯推断近似推断推荐理由:Ribbon用一种巧妙的线性化技巧,让你不用反复训练就能估算模型的不确定性,而且结果和更复杂的bootstrap差不多。原文
13:05arXiv cs.AI@Yanan Long公共AI评估常被当作终极排行榜,但实际证据是受报告规则和基准修订影响的选择性时间序列。研究使用LiveBench、Open LLM Leaderboard v2、LMArena、GAIA和tau-bench等档案进行贝叶斯推断。在固定报告约定下,一个仅包含1000个系统的终端示例与两个终端前历史兼容,在相同尾部模型下达到距离上限0.05内所需时间分别为23.03或75.13。候选选择感知的前沿模型在综合后验比较中失败。提出的档案与裁决协议重构了公共评估历史,验证了时间边界并驳斥了无支持的前沿声称。论文LiveBenchOpen LLM Leaderboard贝叶斯推断AI评估审计推荐理由:这篇论文用贝叶斯方法检查了LiveBench等公共AI评估档案,发现很多宣称有问题,帮你判断哪些基准成绩可信。原文