Brier

§ 01综述

Brier 评分（Brier Score）是评估概率预测准确性的标准指标，通过计算预测概率与真实结果之间的均方误差，常用于气象、医学和机器学习中的模型校准。其值介于0到1之间，越低表示预测越精准。

Brier 评分在机器学习中的近期进展

1. 生存分析领域的 Brier 评分扩展

2025年7月，《Proper Scoring Rules for Right-Censored Survival Data》提出针对右删失生存数据的严格评分规则，将Brier评分适配至删失场景，提升生存模型评估的鲁棒性链接。同月，《SDPM：扩散模型用于连续时间生存分析》利用扩散模型生成生存概率，并以Brier评分作为评价标准之一，验证了模型在连续时间预测上的校准性能链接。

2. LLM 校准与 Brier 评分

2025年5月，《LLM社会科学测量校准问题：GPT-5-mini等模型置信度偏差严重》指出大语言模型（如GPT-5-mini）在社会科学任务中存在系统性置信度偏差，Brier评分揭示其预测概率与真实结果严重偏离，呼吁改进校准技术链接。

3. 代理系统评估中的 Brier 评分应用

2025年7月，《EPC：测量LLM代理系统评估者偏好耦合的标准化协议》采用Brier评分量化评估者偏好与代理行为的一致性，构建标准化评估框架链接。

当前焦点与观察点

Brier 评分正从气象等传统领域向AI模型校准、生存分析等新场景扩展。当前焦点包括：如何处理删失数据以适配医学预测；如何结合Brier评分与其它指标（如对数损失）全面评估LLM的置信度；以及如何通过标准化协议（如EPC）确保代理系统评估的可比性。值得注意的是，Brier评分虽被广泛使用，但在一类问题中可能对概率分布的形态不敏感，需结合具体场景选择合适的评分规则。

§ 02相关报道06 条在档

§ 03邻近话题