Terminal-Bench 是一个评估语言模型在终端环境中执行复杂任务能力的基准。该基准专注于代理式编程,要求模型不仅能生成代码,还能在命令行中执行命令、处理文件、使用工具等。近期,Terminal-Bench 从编程领域扩展至科学领域,发布了 T-Bench Science,鼓励社区贡献跨学科任务,并支持多种模型在科学场景下的评估。
在模型进展方面,Cohere 发布了首个开源编程模型 North Mini Code,专为代理编程设计,意在降低闭源模型的垄断;Google DeepMind 推出 Gemini 3.5 Flash,在多项自动化测试中表现优于前代 3.1 Pro,且成本仅为顶级模型的一小部分,成为性价比之选。Meta 的论文指出,通过复用尝试摘要能显著提升编码智能体性能,这为模型在 Terminal-Bench 上的表现优化提供了新思路。此外,ZenMux 免费体验了 Claude Opus 4.8,该版本在编码和代理任务上可靠性提升。
当前焦点在于,尽管闭源模型在 Terminal-Bench 上表现强势,但开源模型如 North Mini Code 和 Qwen3.7-Max(未开源但具性价比)正在缩小差距。未来观察点包括:Mux 等模型选择器 Factory Router 能否通过智能路由节省成本,以及 T-Bench Science 是否吸引更多跨学科任务贡献,推动基准的多元化发展。