10:30arXiv: OpenAI@Andrew Bo Liu, Samira Nedungadi, Bryce Cai, Alex Kleinman, Harmon Bhasin, Seth Donoughe72°ABC-Bench(Agentic Bio-Capabilities Benchmark)是一个用于评估大型语言模型智能体在生物安全相关任务上能力的基准测试套件。它包含三类任务:编写代码操作液体处理机器人、设计用于体外组装的DNA片段、以及规避DNA合成筛选。所有测试的LLM智能体在三项任务上均超过了人类专家基线水平,但在需要新颖生物信息推理的任务上表现较弱。湿实验验证显示,OpenAI的o4-mini-high模型生成的脚本成功在OpenTrons机器人上组装出预期序列的DNA。该基准旨在量化AI在生物研究中的双刃剑效应——既推动科学进步,也带来新的生物安全风险。论文生物安全LLM智能体基准测试DNA组装双用途技术7 个信源在谈推荐理由:这是首个系统评估LLM智能体在生物安全关键任务上能力的基准,做AI安全或生物计算的研究者值得关注——它揭示了当前模型在复制已知协议时很强,但在创新推理上仍有短板。原文