OpenAI 推出 GeneBench-Pro 基准,专注生物学计算能力评估

OpenAI 推出 GeneBench-Pro 基准测试,用于评估 AI 模型生物学计算能力

精选理由

想测测 AI 在生物学研究里的实战能力?OpenAI 搞了个 GeneBench-Pro 基准,129 道题,合成数据防作弊,快看看你的模型能得几分。

AI 摘要

OpenAI 发布 GeneBench-Pro 基准测试,用于评估 AI 模型在生物学计算中的真实研究能力。该基准包含 129 道题目,覆盖基因组学、定量生物学等 10 大领域和 21 子领域。每道题提供接近真实科研环境的数据集,要求模型自主探索、选择分析方法并给出答案。OpenAI 采用合成数据避免评分偏差,确保模型真正理解问题而非走捷径。目前已在 Hugging Face 开源 10 道示例题,后续将开放 50 道题给 Artificial Analysis 第三方评测。

AI 翻译 · 中文

OpenAI 发布 GeneBench-Pro 基准测试,用于评估 AI 模型在生物学计算中的真实研究能力。该基准包含 129 道题目,覆盖基因组学、定量生物学等 10 大领域和 21 子领域。每道题提供接近真实科研环境的数据集,要求模型自主探索、选择分析方法并给出答案。OpenAI 采用合成数据避免评分偏差,确保模型真正理解问题而非走捷径。目前已在 Hugging Face 开源 10 道示例题,后续将开放 50 道题给 Artificial Analysis 第三方评测。

IT之家IT之家 7 月 1 日消息,OpenAI 宣布推出 GeneBench-Pro 基准测试,主要用于评估 AI 模型在生物学计算任务中的真实研究能力,重点衡量模型面对杂乱数据时的分析判断、方法选择,以及研究结果是否足以支撑后续决策。 据介绍,相比传统基准测试通常聚焦在“模型是否记住知识”或“能否按固定流程完成任务”,GeneBench-Pro 更强调在真实科研环境中的实用性,让模型面对“模糊、不完整、甚至带有干扰的数据环境”,令其判断分