LLM评估领域近期呈现两大趋势:一是评估场景从通用问答向专业领域(如化学、审计、医学)下沉,二是评估方法本身受到审视,LLM作为评判者的可靠性被质疑。
- 近期主要进展:
- 专业领域基准迅速舁展:从超分子化学基准、审计欺诈检测、科学研究思想评价到医疗多阶段模拟环境,领域基准的覆盖面和复杂度显著提升。例如,SupraBench评估LLM在超分子化学的表现(SupraBench:首个超分子化学LLM基准发布),AuditFraudBench显示LLM识别财务欺诈仍困难(AuditFraudBench:审计欺诈检测新基准,LLM 识别财务造假仍困难),ClinEnv模拟LLM作为主治医生的多阶段住院环境(ClinEnv:评估LLM作为主治医生的多阶段住院模拟环境)。
- 推理能力成评估重点:SciR基准率先将演绎、归纳和因果推理提作为独立维度,为科学推理的微观评估提供工具(SciR:可控科学推理基准,评估LLM的演绎、归纳与因果推理)。另外,SoundnessBench评估AI科学家区分研究想法好坏的能力,发现LLM尚不能可靠判断(SoundnessBench:AI科学家能否区分好与坏的研究想法?)。
- 评估方法本身受到检视:LQM-as-Judge被证实在评价科学新颖性时不可靠,会产生“新颖性幻觉”(LLM-as-Judge 评估科学新颖性不可靠:RQ-Bench 揭示“新颖性幻觉”)。这提示依赖LLM自评的传统路径存在限度,为此有工作提出了更精细的评估方法,如软提示调参用于公平评估基准知识(Soft-Prompt Tuning:公平高效评估LLM基准知识),以及探索引导的评估技能合成来提升奖励模型判断力(Eval-Skill:探索引导的评估技能合成,提升奖励模型判断力)。
当前焦点:评估的信度与可靠性问题成为核心,尤其是LLM自评方式在客观性和新颖性判断上的缺陷;同时,越来越多的领域定制基准将评估从广泛知识测试转向专业能力研究,而评估结果实际可用性仍是未解决的难题。
未来观察点:在评估基准层出不穷的背景下,如何统一评估框架,提升评估本身的信度,可能是接下来的研究重点。