基准测试 · AI 话题观测

§ 01综述

基准测试是用于评估人工智能模型在特定任务上性能的标准化方法，目前已成为衡量模型能力的关键工具，但其有效性和局限性也引发广泛讨论。

基准测试近期进展

开源模型在智能体基准上追赶闭源：GLM-5.2等开源模型在AA-Briefcase智能体基准上表现接近闭源模型，显示开源模型的快速进步。原文标题

新基准覆盖纳米技术和GPU编程：NMO基准专注于纳米分子优化，ParallelKernelBench评估LLM编写GPU内核的能力，扩展了基准测试的应用领域。NMO基准；ParallelKernelBench

多语言和安全评估新基准：EMPATH基准用于情感支持聊天机器人的安全审计，OCR-VLMs基准针对天城体OCR进行压力测试，关注多语言和安全性。EMPATH；OCR-VLMs

长期运行基准与模型对比：OpenRouter持续运行GPQA和TAU-Bench并公开结果；500天初创生存测试中仅三个模型盈利，反映基准测试的多样性。OpenRouter；生存测试

当前焦点与观察点

当前基准测试面临的主要争议是：静态基准可能更多衡量记忆而非智能（François Chollet观点）；同时，多GPU编程基准显示LLM在单GPU上表现良好，但多GPU协作时性能崩溃，提示现有基准未能充分反映真实应用场景。此外，智能体基准的复杂性逐渐增加，但如何设计能真正衡量推理能力的测试仍是难题。

§ 02相关报道10 条在档

§ 03邻近话题