做分类模型的团队终于有了一个不增加额外参数就能处理边界不确定性的方法——三元决策树在 72 个数据集上显著优于 CART,做医疗或金融风控的开发者可以直接在现有 CART 框架上实现,值得一试。
传统决策树使用硬二值阈值划分特征空间,导致远离决策边界与恰好在边界上的样本被赋予相同置信度。本文提出三元决策树,在每个分裂节点上引入以最优阈值为中心的半宽 delta 的不确定区域,落入该区域的样本通过加权混合两个子树的预测结果,并被标记为边界不确定,提示下游应用可区别对待。delta 基于标准 CART 分裂过程中已有的统计量局部计算,无需额外噪声参数。在 72 个 OpenML-CC18 数据集上的 5 折交叉验证中,所有五种 delta 估计方法(质量平台、类重叠、增益比、节点自助法、间隔法)结合概率路由均在决定准确率上显著优于标准 CART(Wilcoxon 符号秩检验,p < 0.001),其中间隔法效率最高(每单位边界不确定标记率带来 0.104 准确率增益),在 42 个数据集上胜出,且无需额外超参数。在医学和金融数据集上,节点自助法在乳腺 X 光检查中通过标记 10.8% 的筛查病例为边界不确定,实现了 +0.71% 的决定准确率提升。
传统决策树使用硬二值阈值划分特征空间,导致远离决策边界与恰好在边界上的样本被赋予相同置信度。本文提出三元决策树,在每个分裂节点上引入以最优阈值为中心的半宽 delta 的不确定区域,落入该区域的样本通过加权混合两个子树的预测结果,并被标记为边界不确定,提示下游应用可区别对待。delta 基于标准 CART 分裂过程中已有的统计量局部计算,无需额外噪声参数。在 72 个 OpenML-CC18 数据集上的 5 折交叉验证中,所有五种 delta 估计方法(质量平台、类重叠、增益比、节点自助法、间隔法)结合概率路由均在决定准确率上显著优于标准 CART(Wilcoxon 符号秩检验,p < 0.001),其中间隔法效率最高(每单位边界不确定标记率带来 0.104 准确率增益),在 42 个数据集上胜出,且无需额外超参数。在医学和金融数据集上,节点自助法在乳腺 X 光检查中通过标记 10.8% 的筛查病例为边界不确定,实现了 +0.71% 的决定准确率提升。
Decision trees partition the feature space using hard binary thresholds, assigning identical confidence to instances far from a decision boundary and to those directly on it. We introduce ternary decision trees, which au…