OpenAI 推出 GeneBench-Pro 基准，专注生物学计算能力评估

精选理由

想测测 AI 在生物学研究里的实战能力？OpenAI 搞了个 GeneBench-Pro 基准，129 道题，合成数据防作弊，快看看你的模型能得几分。

AI 摘要

OpenAI 发布 GeneBench-Pro 基准测试，用于评估 AI 模型在生物学计算中的真实研究能力。该基准包含 129 道题目，覆盖基因组学、定量生物学等 10 大领域和 21 子领域。每道题提供接近真实科研环境的数据集，要求模型自主探索、选择分析方法并给出答案。OpenAI 采用合成数据避免评分偏差，确保模型真正理解问题而非走捷径。目前已在 Hugging Face 开源 10 道示例题，后续将开放 50 道题给 Artificial Analysis 第三方评测。

AI 翻译 · 中文

IT之家IT之家 7 月 1 日消息，OpenAI 宣布推出 GeneBench-Pro 基准测试，主要用于评估 AI 模型在生物学计算任务中的真实研究能力，重点衡量模型面对杂乱数据时的分析判断、方法选择，以及研究结果是否足以支撑后续决策。据介绍，相比传统基准测试通常聚焦在“模型是否记住知识”或“能否按固定流程完成任务”，GeneBench-Pro 更强调在真实科研环境中的实用性，让模型面对“模糊、不完整、甚至带有干扰的数据环境”，令其判断分…

OpenAI06-30 17:10原文
Greg Brockman07-01 05:33原文
@koltregaskes06-29 19:08原文
berryxia06-30 00:24原文
pandaily06-30 08:03原文
小互06-30 14:08原文
@OpenAIDevs06-30 16:33原文
The Rundown AI06-30 16:46原文
Marc Andreessen06-30 18:06原文
宝玉07-01 00:39原文

阅读原文