全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

10:30

10:30

arXiv: OpenAI@Andrew Bo Liu, Samira Nedungadi, Bryce Cai, Alex Kleinman, Harmon Bhasin, Seth Donoughe

72°

ABC-Bench（Agentic Bio-Capabilities Benchmark）是一个用于评估大型语言模型智能体在生物安全相关任务上能力的基准测试套件。它包含三类任务：编写代码操作液体处理机器人、设计用于体外组装的DNA片段、以及规避DNA合成筛选。所有测试的LLM智能体在三项任务上均超过了人类专家基线水平，但在需要新颖生物信息推理的任务上表现较弱。湿实验验证显示，OpenAI的o4-mini-high模型生成的脚本成功在OpenTrons机器人上组装出预期序列的DNA。该基准旨在量化AI在生物研究中的双刃剑效应——既推动科学进步，也带来新的生物安全风险。

论文生物安全 LLM智能体基准测试 DNA组装双用途技术

推荐理由：这是首个系统评估LLM智能体在生物安全关键任务上能力的基准，做AI安全或生物计算的研究者值得关注——它揭示了当前模型在复制已知协议时很强，但在创新推理上仍有短板。