全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:15

arXiv cs.AI@Harihara Muralidharan, Reema Baskar, Soo Hee Lee, Tim Proctor, Kenny Workman

研究人员推出了EpiBench，一个用于短周期表观基因组学分析的可验证基准测试。该基准包含106个评估任务，覆盖CUT&Tag/CUT&RUN、ATAC-seq、ChIP-seq和DNA甲基化等流程。在16个模型-工具组合的5088条有效轨迹中，没有系统通过大部分尝试：GPT-5.5/Pi以45.0%的通过率领先，GPT-5.5/OpenAI Codex以39.9%紧随其后。性能因检测类型而异，许多失败运行仍包含部分正确答案，但任务需要更深入的、检测特定的科学判断时，智能体往往失败。这表明当前AI在需要专业领域知识的复杂分析中仍有明显短板。

论文基准测试表观基因组学 AI智能体 GPT-5.5 科学判断

推荐理由：做基因组学分析的团队终于有了一个可复现的AI能力评估标准——EpiBench揭示了当前最强模型在专业科学判断上的天花板，做生物信息学工具开发或AI+生命科学研究的建议点开看看差距在哪。

原文

09:31

arXiv cs.AI@Ali Arabat, Mohammed Sayagh

该研究分析了148个项目中15549个由AI智能体（如GitHub Copilot）生成的拉取请求（Agentic-PRs），探讨指令文件对AI智能体性能的影响。研究发现，创建指令文件并不总是提升合并率：27.7%的项目合并率提升至少20%，但26.35%的项目反而下降。代码变更量和合并所需时间等指标也呈现类似分化。初步探索表明，成功提升合并率的项目拥有更长、结构更清晰的指令文件。研究呼吁将指令文件开发视为软件工程活动（Instructions-as-Code），以帮助实践者优化AI协作。

论文 AI智能体指令文件拉取请求软件工程 GitHub Copilot

推荐理由：做AI辅助开发的团队会发现，指令文件不是写得越多越好——研究揭示了哪些写法真正有效，建议点开看看如何优化你的项目指令。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

10:55

arXiv cs.AI@Krti Tallam

精选

企业安全传统上围绕数据边界构建，但生产级AI智能体打破了这一假设——它们代表企业读取上下文、调用工具、修改系统记录，风险从边界转移到了工作流内部。现有策略引擎无法处理这种状态化、复合主体的授权链场景。本文提出一个五平面参考架构：一个推理平面裁决意图，四个执行平面（网络、身份、端点、数据）实现决策，支持任意点中断、复合主体能力衰减和结构化审计。该架构定义了六种中断原语、四个正确性不变量，并在五个具体工作流中演示了七种生产威胁的防范。参考实现显示：裁决在个位数微秒内完成，审计底层的防篡改行为符合设计预期。

论文 AI智能体安全治理参考架构企业安全运行时治理

推荐理由：生产级AI智能体面临的安全治理空白终于有了系统化的架构方案——做AI Agent部署、企业安全架构的团队可以直接参考这个五平面模型来设计自己的治理层，建议点开看看具体的中断原语和正确性证明。

原文

5月28日

11:36

arXiv: OpenAI@Ian Diks, Harihara Muralidharan, Tim Proctor, Kenny Workman

精选

研究人员推出 SpatialBench-Long 基准测试，专门评估 AI 智能体在空间生物学中的长程科学推理能力。该基准包含 24 个评估任务，涵盖胰腺癌、胶质母细胞瘤、肺癌等多种疾病模型，涉及 CosMx、Visium、Xenium 等多种空间转录组学技术。任务要求智能体从原始或近原始数据中恢复生物学结论，而非执行预设分析流程。当前最佳模型（Gemini 3.5 Flash、GPT-5.5 等）在 72 次运行中仅完成 8 次（11.1%），表明该任务极具挑战性。该基准通过确定性评分和专家审查确保结果可靠性。

论文空间生物学基准测试 AI智能体科学推理 SpatialBench-Long

推荐理由：空间生物学研究者终于有了衡量AI科学推理能力的硬核基准——SpatialBench-Long 要求智能体从复杂空间数据中推导真实结论，而非简单跑流程。做生物信息学或AI for Science的团队，值得看看当前模型的表现差距在哪里。

原文

5月27日

10:29

arXiv cs.AI@Tamerlan Aghayev, Maxime Elkael, Michele Polese, Minh Dat Nguyen, Gabriele Gemmi, Andrea Lacava, Ali Saeizadeh, Reshma Prasad, Paolo Testolina, Angelo Feraudo, Soumendra Nanda, Pedram Johari, Salvatore D'Oro, Tommaso Melodia

精选72°

GENESIS是一个AI智能体框架，旨在解决6G无线接入网（RAN）研发中六个结构性瓶颈，包括从标准合成代码、一致性测试、现场异常处理、数据驱动优化、新波形原型设计到安全加固。传统LLM在RAN场景中会幻觉API、误读规范，且依赖仿真导致硬件迁移失败。GENESIS通过三个可组合原语（智能体、技能、钩子）和持久知识层SYNAPSE，将意图（如规范条款、遥测异常）转化为经过空中实验验证的解决方案，并回馈到知识库。该框架使能力随运行次数累积，显著压缩R&D周期。

论文 6G RAN AI智能体自动化测试知识库

推荐理由：GENESIS解决了6G RAN研发中手动迭代耗时的核心痛点，做通信系统开发或6G标准研究的团队可以直接用这个框架加速从规范到验证的全流程。

原文

5月19日

14:33

arXiv cs.AI@Sanderson Oliveira de Macedo, Ronaldo Martins da Costa

精选72°

Reversa 是一个将遗留系统（如COBOL代码）转化为AI智能体可操作规范的框架。它通过多智能体流水线，自动映射项目表面、分析模块、提取隐含规则、合成架构并编写单元级规范，强调代码与规范的可追溯性、显式置信度标记和保留人工验证缺口。在将ATM系统从COBOL迁移到Go的案例中，生成了517条声明、10个缺口、53个Gherkin场景和9/11任务完成的重建计划。该框架以Node.js CLI形式发布，支持多种智能体引擎，并利用SHA-256清单保护修改文件。

论文逆向工程遗留系统迁移 AI智能体代码规范 COBOL

推荐理由：做遗留系统现代化或AI驱动代码迁移的团队，终于有了一个能自动生成可追溯规范的框架——Reversa 直接帮你把老代码变成AI智能体能理解的文档，建议做COBOL迁移或大型系统重构的开发者点开看看。

原文

5月15日

09:57

arXiv cs.AI@Licong Xu, Thomas Borrett

精选

这篇论文提出了两个面向宇宙学的AI智能体系统：CMBEvolve通过LLM引导的代码进化和树搜索，针对有明确量化目标的任务（如弱引力透镜图中的异常检测）进行优化；CosmoEvolve则构建虚拟多智能体研究实验室，用于开放式的科学工作流（如自主分析ACT DR6数据）。初步实验显示，CMBEvolve能通过代码进化迭代提升基准分数，CosmoEvolve能识别非平凡的成对和尺度依赖行为并生成分析级诊断。这项工作展示了宇宙学如何为AI科学家系统的开发提供可控基准和真实开放研究问题。

论文 AI智能体宇宙学代码进化多智能体系统科学发现

推荐理由：宇宙学研究者终于有了能自主推进发现的AI工具——CMBEvolve和CosmoEvolve分别解决了定量优化和开放式探索两大痛点，做数据分析或理论建模的团队可以直接参考其方法。

原文

5月13日

19:12

arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song

精选75°

ExploitGym 是一个大规模、多样化的基准测试，用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例，涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示，前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例，即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险，为防御和攻击场景提供了重要测试平台。

论文安全漏洞 AI智能体基准测试漏洞利用 Claude Mythos Preview GPT-5.5

推荐理由：安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景，做渗透测试或 AI 安全评估的团队可以直接拿来用。

原文