00:10elvis@omarsar0精选OpenAI 推出 LifeSciBench,一个针对生命科学研究的基准测试,包含 750 个专家编写的任务,覆盖 7 个生物学研究工作流。该基准由 173 位来自生物技术和制药领域的科学家共同开发,旨在衡量 AI 在真实世界科研场景中的表现。结果显示通用模型在复杂结构处理上仍有不足,而专用模型在科学研究中优势明显。AI模型OpenAILifeSciBench基准生命科学科学智能10 个信源在谈推荐理由:OpenAI 联合 173 位科学家搞了个新基准 LifeSciBench,750 个专家任务专测 AI 搞科研的能力,比通用模型靠谱多了。原文
10:35marktechpost@Michal Sutter精选OpenAI推出LifeSciBench,包含750个专家撰写任务,覆盖7个工作流和7个生物学领域,由173位博士科学家构建,使用19,020条评分标准评估推理与决策。当前最佳模型GPT-Rosalind得分仅36.1%,在人工制品、精确输出和操作决策上仍有较大提升空间。该基准旨在测试AI的真实研究能力而非单纯记忆。AI模型LifeSciBenchOpenAIGPT-Rosalind基准测试生命科学10 个信源在谈推荐理由:想看看AI搞科研到底多强?OpenAI出了个750道专家题的LifeSciBench,GPT-Rosalind才36.1%,差距大到让你吃惊。原文
05:25OpenAI@OpenAIOpenAI推出LifeSciBench新基准,用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流,测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。AI模型LifeSciBenchGPT-RosalindGPT-5.5OpenAI推理模型10 个信源在谈推荐理由:OpenAI搞了个新基准LifeSciBench,专门测生物科学推理,GPT-Rosalind比GPT-5.5还强,值得看看。原文
05:24OpenAI@OpenAIOpenAI发布LifeSciBench,一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发,包含750个专家编写的任务,覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性,并指导后续改进。AI模型OpenAILifeSciBench基准生命科学科研辅助10 个信源在谈推荐理由:OpenAI联合173位科学家搞了个LifeSciBench,750个专家级任务覆盖7个生物研究流程,想测AI在生命科学里到底好不好用,科研人员可以用它来选模型。原文
05:23OpenAI@OpenAIOpenAI推出LifeSciBench,这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景,帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作,以共同改进AI。具体评估指标和测试集细节尚待公开。AI模型LifeSciBenchOpenAI基准测试生命科学10 个信源在谈推荐理由:OpenAI搞了个LifeSciBench,专门测AI在生命科学上的表现,比以前的评估更贴近真实场景,想了解差距的可以看看。原文
04:41OpenAI Blog(博客/媒体)OpenAI 发布了 LifeSciBench,这是一个由 10 位生命科学专家编写并经过独立审查的基准测试。该基准包含 30 个任务,覆盖文献综述、实验设计、数据分析等真实研究场景。初步测试显示,GPT-4o 在多数任务上优于其他模型,但所有模型在需要跨领域推理的任务中表现仍有显著差距。LifeSciBench 旨在为 AI 在科学领域的可靠性和安全性提供更严格的评估工具。AI模型OpenAILifeSciBench基准测试AI安全科学推理10 个信源在谈推荐理由:OpenAI 出了个新基准 LifeSciBench,专门测 AI 做生命科学研究的能力,比一般问答难多了,能看出模型哪里不行。原文