OpenAI 发布 LifeSciBench 基准，评估 AI 处理生命科学研究任务

精选理由

OpenAI 出了个新基准 LifeSciBench，专门测 AI 做生命科学研究的能力，比一般问答难多了，能看出模型哪里不行。

AI 摘要

OpenAI 发布了 LifeSciBench，这是一个由 10 位生命科学专家编写并经过独立审查的基准测试。该基准包含 30 个任务，覆盖文献综述、实验设计、数据分析等真实研究场景。初步测试显示，GPT-4o 在多数任务上优于其他模型，但所有模型在需要跨领域推理的任务中表现仍有显著差距。LifeSciBench 旨在为 AI 在科学领域的可靠性和安全性提供更严格的评估工具。

OpenAI 发布 LifeSciBench 基准，评估 AI 处理生命科学研究任务 — 图片来源 · OpenAI Blog

AI 翻译 · 中文

OpenAI BlogIntroducing LifeSciBench, an expert-authored, expert-reviewed benchmark for evaluating how AI systems handle real-world life science research tasks and decisions.

Decoder06-16 11:28原文
marktechpost06-18 02:28原文
@koltregaskes06-16 19:35原文
Jim Fan06-16 21:51原文
AI Will06-17 09:19原文
elvis06-18 15:23原文
kimmonismus06-15 18:41原文
IT之家06-16 04:21原文
berryxia06-16 04:42原文
Fireworks AI06-16 22:11原文

阅读原文