10:04arXiv cs.LG@Pietro Barbiero, Giovanni De Felice, Mateo Espinosa Zarlenga, Francesco Giannini, Filippo Bonchi, Mateja Jamnik, Giuseppe Marra, Ruggero Noris精选随着AI模型日益复杂,可解释性成为理解、调试和控制模型的关键工具,但该领域缺乏通用理论来演绎设计可解释方法,导致文献碎片化和评估标准不一致。为此,研究者提出了标准可解释模型(SIM),这是一种基于拉格朗日力学的通用理论,能从用户对可解释性的前提假设出发,系统推导出对称性和约束,进而构建拉格朗日函数,其最小值对应最优可解释模型。通过调整不透明模型参数或编译约束到可解释架构,可达到最小值。实验表明,SIM能识别并解决传统、概念和机制可解释性方法的局限性,揭示未充分探索的研究方向,并指导核心编程接口设计。该理论还为可解释性课程提供教学基础,有望改变该领域长期碎片化的现状。论文可解释性拉格朗日力学通用理论机器学习SIM推荐理由:做可解释性研究的团队终于有了一个统一的理论框架,能系统设计方法而非拼凑碎片,建议关注论文中的对称性和约束推导部分。原文