10:35marktechpost@Michal Sutter精选OpenAI推出LifeSciBench,包含750个专家撰写任务,覆盖7个工作流和7个生物学领域,由173位博士科学家构建,使用19,020条评分标准评估推理与决策。当前最佳模型GPT-Rosalind得分仅36.1%,在人工制品、精确输出和操作决策上仍有较大提升空间。该基准旨在测试AI的真实研究能力而非单纯记忆。AI模型LifeSciBenchOpenAIGPT-Rosalind基准测试生命科学10 个信源在谈推荐理由:想看看AI搞科研到底多强?OpenAI出了个750道专家题的LifeSciBench,GPT-Rosalind才36.1%,差距大到让你吃惊。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
08:01Google AI@GoogleAI精选Google AI 宣布推出 Science Skills,这是一个专门的生命科学技能包,整合了 30 多个主要生命科学模型和数据库,并与 Antigravity 等智能体平台结合。研究人员现在可以在几分钟内完成原本需要手动执行的复杂工作流。该工具旨在加速药物发现、基因组分析等领域的科研效率。用户可通过指定链接了解如何使用 Science Skills。AI产品生命科学AI 智能体Google AIAntigravity科研加速推荐理由:生命科学研究者终于有了能直接用的 AI 工具——Science Skills 把多模型和数据库整合成可执行的工作流,做药物发现或基因组分析的团队建议点开看看。原文