terminalbench·general

Terminal-Bench

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
37
§ 01综述

Terminal-Bench 是一个评估语言模型在终端环境中执行复杂任务能力的基准。该基准专注于代理式编程,要求模型不仅能生成代码,还能在命令行中执行命令、处理文件、使用工具等。近期,Terminal-Bench 从编程领域扩展至科学领域,发布了 T-Bench Science,鼓励社区贡献跨学科任务,并支持多种模型在科学场景下的评估。

在模型进展方面,Cohere 发布了首个开源编程模型 North Mini Code,专为代理编程设计,意在降低闭源模型的垄断;Google DeepMind 推出 Gemini 3.5 Flash,在多项自动化测试中表现优于前代 3.1 Pro,且成本仅为顶级模型的一小部分,成为性价比之选。Meta 的论文指出,通过复用尝试摘要能显著提升编码智能体性能,这为模型在 Terminal-Bench 上的表现优化提供了新思路。此外,ZenMux 免费体验了 Claude Opus 4.8,该版本在编码和代理任务上可靠性提升。

当前焦点在于,尽管闭源模型在 Terminal-Bench 上表现强势,但开源模型如 North Mini Code 和 Qwen3.7-Max(未开源但具性价比)正在缩小差距。未来观察点包括:Mux 等模型选择器 Factory Router 能否通过智能路由节省成本,以及 T-Bench Science 是否吸引更多跨学科任务贡献,推动基准的多元化发展。

§ 02相关报道10 条在档
  1. 01
    Cohere 发布首个开源编程模型 North Mini Code,专为 Agent 编程设计
    shao__meng
  2. 02
    Factory Router:编码智能体模型选择器,节省20-25%成本
    rohanpaul_ai
  3. 03
    ZenMux 免费体验 Claude Opus 4.8,一次生成高细节波音 747
    berryxia
  4. 04
    Claude Opus 4.8 发布:可靠性提升,编码与Agent任务更强
    shao__meng
  5. 05
    Meta 论文:编码智能体通过复用尝试摘要大幅提升性能
    rohanpaul_ai
  6. 06
    Qwen3.7-Max 未开源,但仍是企业智能体性价比之选
    Milvus
  7. 07
    Terminal-Bench 扩展至科学领域:T-Bench Science 开放任务贡献
    Thomas Wolf
  8. 08
    Gemini 3.5 Flash 在多项自动化测试中超越 3.1 Pro
    rohanpaul_ai
  9. 09
    Google I/O 发布 Gemini 3.5 Flash,最强编程与智能体模型
    Jeff Dean
  10. 10
    Gemini 3.5 Flash 发布:性能媲美顶级模型,价格仅一小部分
    Google DeepMind
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/Terminal-Bench