全部 AI 动态 · AI 热点

6月26日

09:32

arXiv: OpenAI@Zhihao Lin, Mingyi Zhou, Yizhuo Yang, Li Li

本研究系统性地向Codex代码代理注入不同粒度的静态结构注释（如调用图、继承拓扑），发现轻量级拓扑可将函数级定位准确率（Func@5）提升2.2个百分点，并减少1.6轮交互。静态锚点使代理的链接跟随率从0.15-0.18提升至0.21-0.24，单次运行通过率（Pass@1）增加3.4个百分点，同时运行方差减半。但代价是增加约10%的输入token，且稠密语义存在边际效益递减。研究建议中等规模项目默认使用轻量级拓扑，大型仓库裁剪前向边，隐式依赖场景才采用密集标签。

论文代码代理静态分析 Codex 调用图确定性锚点

推荐理由：这篇论文用实验告诉你：给代码代理加一点调用图注释，定位准了2.2%，交互少了1.6轮，运行还更稳定。比堆更多上下文管用。

原文

09:31

arXiv: OpenAI@Drew Johnston, David Holtz, Alex Martin Richmond, Christopher Ong, Prasanna Tambe, Aaron Chatterji

76°

OpenAI发布基于Codex使用数据的分析，展示Agentic AI技术如何改变工作方式。2026年上半年，Codex活跃用户数增长超过五倍，其中非软件开发者的增长最快。OpenAI内部Codex几乎完全替代了ChatGPT用于业务工作。超过10%的用户每周管理三个以上并发Codex代理，26.6%使用技能共享复杂工作流。请求复杂度上升：估算需要资深人类8小时以上的任务请求比例增长近十倍。2026年6月，OpenAI法律岗位员工通过Codex和ChatGPT的月输出Token中位数是2025年11月的13倍，研究人员则超过50倍。

论文 Codex OpenAI Agentic AI 智能体工作流

推荐理由：OpenAI内部数据揭示Agentic AI如何改变工作方式：Codex活跃用户半年增5倍，研究人员月产出增50倍。看真实采用率与工作流变化。

原文

6月17日

10:46

arXiv cs.AI@Shanda Li, Qiuhong Anna Wei, Jingwu Tang, Valerie Chen, Nihar B Shah, Tim Dettmers, Yiming Yang, Ameet Talwalkar

ReproRepo是一个可扩展的框架，利用GitHub Issues作为监督信号来评估LLM在可重复性审计中的能力。研究基于1149篇近期机器学习论文，测试了四种前沿智能体配置。最佳配置Codex with GPT-5.5能识别约90%论文的至少一个语义相关的真实可重复性问题。分析表明智能体擅长发现表面故障和语义区域，但精确定位仍不足。代码已开源。

论文 ReproRepo GPT-5.5 Codex 可重复性 LLM智能体

推荐理由：这篇论文提出了一个可扩展的框架，用GitHub Issues来测试LLM智能体找论文代码的复现问题，比现有手动基准好很多，值得看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:20

arXiv: OpenAI@Ziyue Wang, Cheuk Wang Maurice Ng, Chenchen Yu, Strick Sheng, Kaihua Qin, Liyi Zhou

EvoHunt是一个在开源仓库上运行的安全审计剧本进化环境。它使用三个智能体驱动循环：审计智能体执行当前剧本，评估器根据真实情况打分，修订者根据失败分析更新剧本。在开源安全公告评估中，EvoHunt使Codex/GPT5.4-xhigh的端到端漏洞利用成功率从1.1%提升至6.2%。GLM5.1演变出的剧本在目标匹配率上达到11.3%，超过OpenAI Codex Security的9.2%。转移实验显示，Qwen3.6-27B借助GLM剧本从2.4%提升至6.5%，Qwen3.6-35B-A3B从1.1%提升至4.6%。

论文 EvoHunt Codex GLM Qwen 智能体安全审计

推荐理由：这篇论文讲EvoHunt，能自动生成安全审计剧本，还能把经验迁移给弱模型，效果比商用产品还好。

原文

6月12日