LLM评估

§ 01综述

LLM评估领域近期呈现两大趋势：一是评估场景从通用问答向专业领域（如化学、审计、医学）下沉，二是评估方法本身受到审视，LLM作为评判者的可靠性被质疑。

专业领域基准迅速舁展：从超分子化学基准、审计欺诈检测、科学研究思想评价到医疗多阶段模拟环境，领域基准的覆盖面和复杂度显著提升。例如，SupraBench评估LLM在超分子化学的表现（SupraBench：首个超分子化学LLM基准发布），AuditFraudBench显示LLM识别财务欺诈仍困难（AuditFraudBench：审计欺诈检测新基准，LLM 识别财务造假仍困难），ClinEnv模拟LLM作为主治医生的多阶段住院环境（ClinEnv：评估LLM作为主治医生的多阶段住院模拟环境）。
推理能力成评估重点：SciR基准率先将演绎、归纳和因果推理提作为独立维度，为科学推理的微观评估提供工具（SciR：可控科学推理基准，评估LLM的演绎、归纳与因果推理）。另外，SoundnessBench评估AI科学家区分研究想法好坏的能力，发现LLM尚不能可靠判断（SoundnessBench：AI科学家能否区分好与坏的研究想法？）。
评估方法本身受到检视：LQM-as-Judge被证实在评价科学新颖性时不可靠，会产生“新颖性幻觉”（LLM-as-Judge 评估科学新颖性不可靠：RQ-Bench 揭示“新颖性幻觉”）。这提示依赖LLM自评的传统路径存在限度，为此有工作提出了更精细的评估方法，如软提示调参用于公平评估基准知识（Soft-Prompt Tuning：公平高效评估LLM基准知识），以及探索引导的评估技能合成来提升奖励模型判断力（Eval-Skill：探索引导的评估技能合成，提升奖励模型判断力）。

当前焦点：评估的信度与可靠性问题成为核心，尤其是LLM自评方式在客观性和新颖性判断上的缺陷；同时，越来越多的领域定制基准将评估从广泛知识测试转向专业能力研究，而评估结果实际可用性仍是未解决的难题。

未来观察点：在评估基准层出不穷的背景下，如何统一评估框架，提升评估本身的信度，可能是接下来的研究重点。

§ 02相关报道10 条在档

§ 03邻近话题