Terminal-Bench 扩展至科学领域：T-Bench Science 开放任务贡献

精选理由

做科研的 AI 用户终于有了专门评估 AI 辅助科研能力的基准——T-Bench Science 直接面向真实工作流，科学家可以贡献自己的流程来推动模型进步，值得关注和参与。

AI 摘要

Terminal-Bench 是一个评估 AI 模型在计算机上使用工具（如命令行）达成目标能力的基准。现在它扩展到了科学领域，推出 T-Bench Science，专门评估 AI 在真实科研工作流中的表现。该基准面向生命科学、物理、地球科学、数学等领域的科学家，并开放任务贡献至 2026 年 8 月。贡献的科研工作流越多样，越能推动下一代 AI 模型更好地辅助日常研究工作。这不是训练数据集，而是用于评估前沿模型性能的基准。Anthropic、OpenAI 和 Google DeepMind 已使用 Terminal-Bench 评估 AI 编程能力，现在科学领域也加入其中。

AI 翻译 · 中文

Thomas WolfI'm very excited about this extension to the celebrated Terminal-Bench to science. If you're a scientist (life, physical, earth, mathematical science, etc) interested in AI, definitely check this out! Terminal be…

Greg Brockman05-19 19:32原文
lmarena.ai05-21 15:41原文
berryxia05-19 16:09原文
IT之家05-19 17:45原文
Ethan Mollick05-20 00:01原文
rohanpaul_ai05-20 09:33原文
The Rundown AI05-20 10:30原文
Jerry Liu05-20 11:10原文
AI Breakfast05-20 13:01原文
marktechpost05-21 04:58原文

查看原推