评估指标是AI研究中衡量模型性能的核心工具,近期研究聚焦于指标设计的严谨性与适配性。背景方面,随着大语言模型(LLM)在对话、多任务及安全性评估中的应用,传统指标在细粒度、鲁棒性和语义理解上暴露出不足。
主要进展:(1) 针对多轮对话语义进展,研究者提出无需LLM评判的信息增益指标,通过对话状态转移量化信息累积,避免了对昂贵LLM的依赖(信息增益衡量多轮对话语义进展:无需LLM评判的新指标);(2) 在多视角目标关联中,指出指标错配问题:排名指标与分配指标在任务目标上存在不一致,导致评估结果偏离实际需要(多视角目标关联中的指标错配:排名 vs 分配);(3) 针对LLM越狱攻击的评估,提出CAS-eval与CAS-gen框架,应对攻击成功率的随机性,使评估更稳健(LLM越狱攻击的随机性问题:CAS-eval与CAS-gen框架);(4) 此外,Goodhart's Law的警示被重申:当指标成为目标时,其本身失去评估价值,AI评估需警惕过度优化(Goodhart's Law警示:AI评估需谨慎)。
当前焦点在于如何设计对齐真实目标的指标,避免“指标陷阱”——如计划表示方式对LLM智能体评估的扭曲(PlanAhead:计划表示方式如何影响LLM网页智能体表现)所示,不同指标可导出截然不同的结论。未来观察点:指标评价体系需融入因果一致性与多维度验证,同时考虑计算效率与可解释性,以支撑安全、可靠的AI部署。