OpenAI发布LifeSciBench，750项任务评估AI模型在生命科学研究中的表现

精选理由

想看看AI搞科研到底多强？OpenAI出了个750道专家题的LifeSciBench，GPT-Rosalind才36.1%，差距大到让你吃惊。

AI 摘要

OpenAI推出LifeSciBench，包含750个专家撰写任务，覆盖7个工作流和7个生物学领域，由173位博士科学家构建，使用19,020条评分标准评估推理与决策。当前最佳模型GPT-Rosalind得分仅36.1%，在人工制品、精确输出和操作决策上仍有较大提升空间。该基准旨在测试AI的真实研究能力而非单纯记忆。

OpenAI发布LifeSciBench，750项任务评估AI模型在生命科学研究中的表现 — 图片来源 · marktechpost

AI 翻译 · 中文

marktechpostOpenAI's LifeSciBench evaluates whether frontier AI can handle real life-science research across 750 expert-authored tasks, seven workflows, and seven biological domains. Built by 173 PhD scientists with 19,020 rubric cr…

OpenAI06-17 20:41原文
Decoder06-16 11:28原文
@koltregaskes06-16 19:35原文
Jim Fan06-16 21:51原文
IT之家06-16 04:21原文
berryxia06-16 04:42原文
elvis06-16 19:32原文
Fireworks AI06-16 22:11原文
宝玉06-16 23:30原文
AI Will06-17 09:19原文

阅读原文