04:41OpenAI Blog(博客/媒体)OpenAI 发布了 LifeSciBench,这是一个由 10 位生命科学专家编写并经过独立审查的基准测试。该基准包含 30 个任务,覆盖文献综述、实验设计、数据分析等真实研究场景。初步测试显示,GPT-4o 在多数任务上优于其他模型,但所有模型在需要跨领域推理的任务中表现仍有显著差距。LifeSciBench 旨在为 AI 在科学领域的可靠性和安全性提供更严格的评估工具。AI模型OpenAILifeSciBench基准测试AI安全科学推理10 个信源在谈推荐理由:OpenAI 出了个新基准 LifeSciBench,专门测 AI 做生命科学研究的能力,比一般问答难多了,能看出模型哪里不行。原文