arXiv cs.LG@Will Schwarzer, Scott Niekum精选58Jones等人提出一种新方法,通过从评估集中最大的k个失败分数外推,预测ML模型在部署规模下的失败率。研究给出了该估计器预测误差的有限k分解,发现其存在偏向过度预测的固有偏差(安全有利方向),但当评估集遗漏部署集中罕见的严重失败模式时,会导致预测不足。为解决这一问题,他们提出了可预测性损失(forecastability loss)作为微调目标。在语言模型密码游戏和RL网格世界两个概念验证实验中,该方法显著降低了保留集上的预测误差,同时保持了主要任务能力,并实现了与监督基线相当的安全性。论文失败预测安全评估微调目标部署规模机器学习推荐理由:做AI安全评估的团队终于有了一个可量化的失败预测工具——新方法解决了评估集太小无法捕捉罕见失败模式的痛点,做模型部署前风险评估的开发者可以直接参考实验方法。
arXiv cs.LG@Chuanchuan Sun, Zhen Yu, Qin Fan, Qingchao Chen, Feng Yu精选35妊娠相关血栓性微血管病(P-TMA)罕见但致命,早期风险预测极具挑战,因为其实验室异常常被妊娠期生理变化掩盖。该研究纳入300例妊娠(142例P-TMA,158例对照),利用146个纵向实验室指标,评估了五种机器学习算法。梯度提升模型在测试集上达到AUROC 0.872、AUPRC 0.883,敏感度0.750,特异度0.812。研究发现,第6周的胱抑素C可作为早期监测指标。这项工作展示了常规产检数据经机器学习分析后,能有效识别P-TMA风险信号。论文机器学习妊娠相关血栓性微血管病纵向实验室数据梯度提升可解释性推荐理由:产科医生和AI医疗研究者值得关注——这项研究用常规产检数据解决了P-TMA早期预测难题,梯度提升模型表现可靠,且胱抑素C指标易于临床落地。建议点开看看具体特征分析和模型细节。
arXiv cs.AI@Yaxin Du, Xiyuan Yang, Zhifan Zhou, Wanxu Liu, Zixing Lei, Zimeng Chen, Fenyi Liu, Haotian Wu, Yuzhu Cai, Zexi Liu, Xinyu Zhu, WenHao Wang, Linfeng Zhang, Chen Qian, Siheng Chen55DataMaster 提出了一种自主数据工程框架,旨在通过优化数据侧(包括外部数据发现、选择、清洗和转换)来提升固定学习算法的性能,而无需改变算法本身。该框架集成了树状搜索结构、共享数据池和全局记忆模块,以应对数据工程中开放式的搜索空间、分支依赖优化和延迟验证等挑战。在 MLE-Bench Lite 基准上,DataMaster 将奖牌率提升了32.27%;在 PostTrainBench 上,其在 GPQA 上的表现(31.02%)超过了指导模型(30.35%)。这表明自主数据工程有望成为提升机器学习系统性能的有效手段。论文数据工程自主智能体机器学习搜索优化arxiv推荐理由:DataMaster 展示了自主数据工程的潜力,特别是在模型架构和训练策略标准化后,数据优化成为关键瓶颈。对于机器学习从业者而言,该框架提供了一种系统化的数据自动化方案,可减少人工试错成本,值得关注其在数据发现与组合方面的实际应用效果。
arXiv cs.LG(学术论文)35因果推断依赖不可验证的假设,现有敏感性分析框架多关注最坏情况下的结论变化,但往往不切实际。本研究将s-value框架泛化至三种常见因果假设,并提出贝叶斯敏感性价值(BSV)指标。BSV通过蒙特卡洛近似,基于真实世界证据构建先验分布,计算假设违背的期望敏感性。实证表明,最坏情况分析可能依赖违背先验知识的极端假设,而BSV能提供更可信的结论。该框架在糖尿病治疗对体重影响的观察性研究中得到验证,为研究者提供了更稳健的因果推断工具。论文因果推断贝叶斯方法敏感性分析观测研究机器学习推荐理由:提出贝叶斯敏感性价值(BSV)方法,解决了传统最坏情况敏感性分析不切实际的问题,为因果推断实践者提供了更符合先验知识的稳健性评估标准。