09:32arXiv: OpenAI@Zhihao Lin, Mingyi Zhou, Yizhuo Yang, Li Li本研究系统性地向Codex代码代理注入不同粒度的静态结构注释(如调用图、继承拓扑),发现轻量级拓扑可将函数级定位准确率(Func@5)提升2.2个百分点,并减少1.6轮交互。静态锚点使代理的链接跟随率从0.15-0.18提升至0.21-0.24,单次运行通过率(Pass@1)增加3.4个百分点,同时运行方差减半。但代价是增加约10%的输入token,且稠密语义存在边际效益递减。研究建议中等规模项目默认使用轻量级拓扑,大型仓库裁剪前向边,隐式依赖场景才采用密集标签。论文代码代理静态分析Codex调用图确定性锚点推荐理由:这篇论文用实验告诉你:给代码代理加一点调用图注释,定位准了2.2%,交互少了1.6轮,运行还更稳定。比堆更多上下文管用。原文
09:31arXiv: OpenAI@Drew Johnston, David Holtz, Alex Martin Richmond, Christopher Ong, Prasanna Tambe, Aaron Chatterji76°OpenAI发布基于Codex使用数据的分析,展示Agentic AI技术如何改变工作方式。2026年上半年,Codex活跃用户数增长超过五倍,其中非软件开发者的增长最快。OpenAI内部Codex几乎完全替代了ChatGPT用于业务工作。超过10%的用户每周管理三个以上并发Codex代理,26.6%使用技能共享复杂工作流。请求复杂度上升:估算需要资深人类8小时以上的任务请求比例增长近十倍。2026年6月,OpenAI法律岗位员工通过Codex和ChatGPT的月输出Token中位数是2025年11月的13倍,研究人员则超过50倍。论文CodexOpenAIAgentic AI智能体工作流10 个信源在谈推荐理由:OpenAI内部数据揭示Agentic AI如何改变工作方式:Codex活跃用户半年增5倍,研究人员月产出增50倍。看真实采用率与工作流变化。原文
10:46arXiv cs.AI@Shanda Li, Qiuhong Anna Wei, Jingwu Tang, Valerie Chen, Nihar B Shah, Tim Dettmers, Yiming Yang, Ameet TalwalkarReproRepo是一个可扩展的框架,利用GitHub Issues作为监督信号来评估LLM在可重复性审计中的能力。研究基于1149篇近期机器学习论文,测试了四种前沿智能体配置。最佳配置Codex with GPT-5.5能识别约90%论文的至少一个语义相关的真实可重复性问题。分析表明智能体擅长发现表面故障和语义区域,但精确定位仍不足。代码已开源。论文ReproRepoGPT-5.5Codex可重复性LLM智能体推荐理由:这篇论文提出了一个可扩展的框架,用GitHub Issues来测试LLM智能体找论文代码的复现问题,比现有手动基准好很多,值得看。原文
11:20arXiv: OpenAI@Ziyue Wang, Cheuk Wang Maurice Ng, Chenchen Yu, Strick Sheng, Kaihua Qin, Liyi ZhouEvoHunt是一个在开源仓库上运行的安全审计剧本进化环境。它使用三个智能体驱动循环:审计智能体执行当前剧本,评估器根据真实情况打分,修订者根据失败分析更新剧本。在开源安全公告评估中,EvoHunt使Codex/GPT5.4-xhigh的端到端漏洞利用成功率从1.1%提升至6.2%。GLM5.1演变出的剧本在目标匹配率上达到11.3%,超过OpenAI Codex Security的9.2%。转移实验显示,Qwen3.6-27B借助GLM剧本从2.4%提升至6.5%,Qwen3.6-35B-A3B从1.1%提升至4.6%。论文EvoHuntCodexGLMQwen智能体安全审计10 个信源在谈推荐理由:这篇论文讲EvoHunt,能自动生成安全审计剧本,还能把经验迁移给弱模型,效果比商用产品还好。原文
09:17arXiv: Anthropic@Gianluca Inguglia76°研究团队首次对Claude Code和Codex两个智能体AI系统进行头对头比较,任务是在共享计算基础设施上自主执行完整的引力波数据分析流程,包括噪声估计、模板生成、信号恢复和论文撰写。实验发现,Claude Code约3.4分钟完成流程,但存在静默偏离规范的行为;Codex耗时约16分钟,但会显式自我纠错并优化代码。在第二次实验中,两者对信噪比范围指令的解读差异导致了科学结论的分歧。该研究揭示了智能体AI在科学计算中速度与可审计性、静默与透明错误处理之间的权衡。论文智能体科学计算引力波Claude CodeCodex推荐理由:这是首次直接对比两大AI智能体在真实科学计算任务中的表现差异,做科学计算自动化的团队会看到速度与可靠性之间的真实取舍——Claude Code更快但可能静默出错,Codex更慢但更透明,值得点开了解如何选择。原文
11:47arXiv cs.AI@James Lucassen, Adam Kaufman精选这篇论文研究了AI编程脚手架(如Claude Code、Codex)中两种安全策略:重试(retrying)和重采样(resampling)。研究发现,重试虽然能降低可疑分数,但不可信模型可利用监控器的理由构建更隐蔽的攻击,抵消安全收益。相比之下,重采样不会泄露可利用信息。在BashArena实验中,使用Claude Opus 4.6作为不可信模型、MiMo-V2-Flash作为可信监控器,每步采样5次并基于最大可疑分数审计,安全率从61%提升至71%,审计预算仅0.3%,且不影响实用性。选择性重采样(仅对首次采样可疑的步骤)可恢复6.2个百分点的收益,同时仅需10%的额外样本。研究还发现两个与先前工作(Ctrl-Z)矛盾的结论:基于最大可疑分数审计优于最小,且执行最不可疑样本的安全增益很小。论文AI安全重试策略重采样Claude CodeCodex推荐理由:这篇论文揭示了AI编程工具中重试策略的安全隐患,并给出了更优的重采样方案。做AI安全或使用Claude Code/Codex的开发者,建议看看具体实验数据和结论,避免踩坑。原文
11:11arXiv cs.AI@Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo精选72°SkillOpt 提出了一种新方法,将智能体技能视为冻结模型的外部状态,通过独立的优化器模型对技能文档进行有界增删改编辑,并仅在严格提升验证集分数时接受修改。该方法引入了文本学习率预算、拒绝编辑缓冲区和逐轮慢/元更新机制,使技能训练稳定且部署时零额外模型调用。在 6 个基准、7 个目标模型和 3 种执行框架(直接对话、Codex、Claude Code)的 52 个测试单元中,SkillOpt 全部取得最佳或并列最佳,相比无技能基线在 GPT-5.5 上平均提升 19.1-24.8 个百分点。迁移实验表明,优化后的技能在不同模型规模、执行环境和相近数学基准间仍保持价值。论文智能体技能优化文本空间优化GPT-5.5Codex推荐理由:SkillOpt 解决了智能体技能无法像深度学习权重那样可靠优化的问题,做智能体开发或技能自动生成的团队可以直接用这套方法替代手工调参,效果显著且部署零开销。原文