Brier 分数(Brier Score)作为概率预测的经典校准度量,近期在多个前沿领域被重新审视和扩展。传统上用于二分类概率的Brier分数,现被推广至右删失生存数据(Proper Scoring Rules for Right-Censored Survival Data),提出IPCW Brier分数以处理删失情况,为生存分析中的模型校准提供了更稳健的评估工具。同时,在连续时间生存分析领域,新提出的扩散模型SDPM(SDPM:扩散模型用于连续时间生存分析)采用Brier分数作为关键性能指标之一,对比传统方法展示了更好的时间动态预测能力。此外,在AI智能体评估中,FutureSim(FutureSim:用真实世界事件回放评估AI智能体适应能力)利用Brier分数衡量智能体对事件概率的预测精度,揭示了现有智能体在适应复杂真实世界场景时的校准不足。值得注意的是,LLM社会科学测量校准问题(LLM社会科学测量校准问题:GPT-5-mini等模型置信度偏差严重)的研究指出,当前大型语言模型如GPT-5-mini在社会科学调查中置信度与真实准确率之间存在显著偏移,而Brier分数因其分解为分辨率和校准成分的特性,被用于诊断和量化这种偏差。
当前焦点集中于Brier分数在非独立同分布数据(如生存分析、事件序列)下的适应性扩展,以及如何通过其分解特性指导模型校准改进。未来观察点包括:Brier分数与其他评分规则(如对数分数)在复杂删失数据中的比较,以及其在多模态、动态场景(如自动驾驶、对话系统)中的落地应用。