全部 AI 动态 · AI 热点

6月19日

00:10

00:10

elvis@omarsar0

精选

OpenAI 推出 LifeSciBench，一个针对生命科学研究的基准测试，包含 750 个专家编写的任务，覆盖 7 个生物学研究工作流。该基准由 173 位来自生物技术和制药领域的科学家共同开发，旨在衡量 AI 在真实世界科研场景中的表现。结果显示通用模型在复杂结构处理上仍有不足，而专用模型在科学研究中优势明显。

AI模型 OpenAI LifeSciBench 基准生命科学科学智能

推荐理由：OpenAI 联合 173 位科学家搞了个新基准 LifeSciBench，750 个专家任务专测 AI 搞科研的能力，比通用模型靠谱多了。

6月18日

10:35

10:35

marktechpost@Michal Sutter

精选

OpenAI推出LifeSciBench，包含750个专家撰写任务，覆盖7个工作流和7个生物学领域，由173位博士科学家构建，使用19,020条评分标准评估推理与决策。当前最佳模型GPT-Rosalind得分仅36.1%，在人工制品、精确输出和操作决策上仍有较大提升空间。该基准旨在测试AI的真实研究能力而非单纯记忆。

AI模型 LifeSciBench OpenAI GPT-Rosalind 基准测试生命科学

推荐理由：想看看AI搞科研到底多强？OpenAI出了个750道专家题的LifeSciBench，GPT-Rosalind才36.1%，差距大到让你吃惊。

05:25

05:25

OpenAI@OpenAI

OpenAI推出LifeSciBench新基准，用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流，测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。

AI模型 LifeSciBench GPT-Rosalind GPT-5.5 OpenAI 推理模型

推荐理由：OpenAI搞了个新基准LifeSciBench，专门测生物科学推理，GPT-Rosalind比GPT-5.5还强，值得看看。

05:24

05:24

OpenAI@OpenAI

OpenAI发布LifeSciBench，一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发，包含750个专家编写的任务，覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性，并指导后续改进。

AI模型 OpenAI LifeSciBench 基准生命科学科研辅助

推荐理由：OpenAI联合173位科学家搞了个LifeSciBench，750个专家级任务覆盖7个生物研究流程，想测AI在生命科学里到底好不好用，科研人员可以用它来选模型。

05:23

05:23

OpenAI@OpenAI

OpenAI推出LifeSciBench，这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景，帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作，以共同改进AI。具体评估指标和测试集细节尚待公开。

AI模型 LifeSciBench OpenAI 基准测试生命科学

推荐理由：OpenAI搞了个LifeSciBench，专门测AI在生命科学上的表现，比以前的评估更贴近真实场景，想了解差距的可以看看。

04:41

04:41OpenAI Blog（博客/媒体）

OpenAI 发布了 LifeSciBench，这是一个由 10 位生命科学专家编写并经过独立审查的基准测试。该基准包含 30 个任务，覆盖文献综述、实验设计、数据分析等真实研究场景。初步测试显示，GPT-4o 在多数任务上优于其他模型，但所有模型在需要跨领域推理的任务中表现仍有显著差距。LifeSciBench 旨在为 AI 在科学领域的可靠性和安全性提供更严格的评估工具。

AI模型 OpenAI LifeSciBench 基准测试 AI安全科学推理

推荐理由：OpenAI 出了个新基准 LifeSciBench，专门测 AI 做生命科学研究的能力，比一般问答难多了，能看出模型哪里不行。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？