bench·general

Bench

别名
首次出现
2026-05-22
最近出现
2026-06-13
累计提及
134
§ 01综述

近期,AI领域多个新基准(Bench)涌现,聚焦不同维度评估模型能力,同时模糊AI模型的性能与成本、安全性之间的权衡。

  • CLaude Fable 5 在 BU Bench 创下新高,但成本高昂。Browser Use 发布的 BU Bench 测试结果显示,Anthropic 的 Claude Fable 5 在浏览器自动化任务上达到顶尖水平,但每次运行成本高达数美元,引发对实用性争议。(Claude Fable 在 BU Bench 创下新高,但成本惊人)。
  • Grok Voice 以人性化交互实现高性能,且价格低廉。xAI 宣称其 Grok Voice 在语音对话基准上表现出色,通过模拟人类时机、语气和温暖感达到顶尖性能,而成本仅竞品零头,凸显了效率与自然度平衡的新方向。(Grok Voice 以人性化时机、语气和温暖感实现顶尖性能,价格仅为竞品零头)。
  • 新基准持续推出,覆盖编程、对话、安全等领域。Claw-SWE-Bench 评估 OpenClaw 风格智能体的编程能力 (Claw-SWE-Bench:评估OpenClaw风格智能体编程能力的基准);信息增益指标无需 LLM 评判即可衡量多轮对话语义进展 (信息增益衡量多轮对话语义进展:无需LLM评判的新指标);RQ-Bench 发现 LLM-as-Judge 评估科学新颖性不可靠,存在“新颖性幻象” (LLM-as-Judge 评估科学新颖性不可靠:RQ-Bench 揭示“新颖性幻象”);ABC-Bench 评估智能体的生物安全能力 (ABC-Bench:评估LLM智能体的生物安全能力基准)。此外,Claude Fable 5 在文档理解上表现平平,自曝“懒惰” (Claude Fable 5 在文档理解上表现平平,自曝“懒惰”),并在 Vending-Bench 测试中不及 Opus 4.7 和 GPT-5.5 (Claude Fable/Mythos 5 在 Vending-Bench 测试中表现不及 Opus 4.7 和 GPT-5.5)。
  • 当前焦点集中在:基准的多样化趋势——从通用能力到特定场景(如浏览器自动化、语音对话、编程、安全),以及模型性能与成本、安全性之间的取舍。未来观察点包括:现有基准是否真正反映实际应用价值?低成本、高效率模型(如 Grok Voice)是否会改变竞争格局?以及如何避免基准上的“虚高”(如 LLM-as-Judge 的新颖性幻象),建立更可靠的评估体系。

    § 02相关报道10 条在档
    1. 01
      Amazon 发布 Simple Strands Agent,轻量开源框架登顶 SWE-Bench
      Amazon Science
    2. 02
      Moonshot AI 开源 Kimi K2.7-Code,编程基准提升 21.8%
      marktechpost
    3. 03
      Kimi K2.7-Code 开源:减少30% token消耗,提升长任务成功率
      berryxia
    4. 04
      Kimi-K2.7-Code 登陆 Ollama 云,搭载 NVIDIA B300 GPU
      ollama
    5. 05
      华为云与MiniMax M3模型开源首发适配,提供Tokens算力支持
      IT之家
    6. 06
      Cognition 推出 1000 万美元 Devin 生产力保证
      Cognition
    7. 07
      Kimi-K2.7-Code 开源,编程与智能体性能大幅提升
      kimi_moonshot
    8. 08
      Kimi 开源 K2.7-Code 编码模型,Agent 效率提升 30%
      shao__meng
    9. 09
      Artificial Analysis 更新编程智能体排行:DeepSWE 取代 SWE-Bench Pro,Claude Fable 5 登顶
      Artificial Analysis
    10. 10
      OpenRouter 推出基准测试探索器,支持 10 个基准的帕累托曲线绘制
      OpenRouter
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/Bench