LifeSciBench基准发布，GPT-Rosalind超越GPT-5.5

精选理由

OpenAI搞了个新基准LifeSciBench，专门测生物科学推理，GPT-Rosalind比GPT-5.5还强，值得看看。

AI 摘要

OpenAI推出LifeSciBench新基准，用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流，测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。

AI 翻译 · 中文

OpenAIBenchmarks often test biological knowledge or narrow skills. The tasks in LifeSciBench test whether models can reason from evidence, work with scientific artifacts, handle uncertainty, and make useful decisions under rea…

marktechpost06-18 02:28原文
IT之家06-16 04:21原文
elvis06-16 19:32原文
Greg Brockman06-17 20:32原文
Decoder06-18 19:17原文
berryxia06-16 04:42原文
@koltregaskes06-16 19:35原文
Jim Fan06-16 21:51原文
Fireworks AI06-16 22:11原文
宝玉06-16 23:30原文

查看原推