全部 AI 动态 · AI 热点

6月30日

09:21

arXiv: DeepSeek@Aditya Pratap Singh

该论文对10个OCR系统在天城体（印地语）上进行基准测试，包括EasyOCR、Qwen2.5-VL-3B、Qwen3-VL-8B、DeepSeek-OCR、Gemini 2.5 Flash、Claude Opus 4.7、GPT-5.5等。在清洁文本上所有系统chrF++在91-98之间，但在真实扫描图像中，9个系统性能大幅下降（EasyOCR从93.6跌至58.3）。Qwen3-VL-8B（75.2，可在单张24GB GPU运行）超过GPT-5.5（58.5）和olmOCR-7B（40.5），Gemini和Claude领先（86.3和82.2）。论文还提出基于ByT5的字节级后校正器可将廉价引擎chrF++提升1.2-1.5。

论文 OCR 天城体基准测试 Qwen3-VL-8B GPT-5.5

推荐理由：如果你对多语言OCR或印地语文本识别感兴趣，这篇论文揭示了主流模型在天城体上的真实差距，尤其是GPT-5.5表现不如开源Qwen3-VL-8B。

原文

6月18日

10:55

arXiv cs.LG@Hannah Le, Ramesh Ramasamy, Alex Urrutia, Mahsa Yazdani, Tim Proctor, Kenny Workman

TxBench-PP是一个用于评估AI agent在小分子临床前药理学中决策能力的基准，包含100个涉及作用机制、药效学等任务的评估。在16个模型配置（涉及11个模型和4800条轨迹）中，最佳配置Claude Opus 4.8 / Pi仅通过59.3%（178/300）的端点尝试，GPT-5.5 / Pi通过55.3%。结果表明，当前AI系统无法可靠复现临床前药理学决策。

AI模型 TxBench-PP Claude Opus 4.8 GPT-5.5 AI agent 药物发现

推荐理由：想看看AI在药物发现中到底行不行？这个基准测试用4800条轨迹告诉你，Claude Opus 4.8和GPT-5.5都还差得远，最高才59.3%的通过率。

原文

6月17日

10:46

arXiv cs.AI@Shanda Li, Qiuhong Anna Wei, Jingwu Tang, Valerie Chen, Nihar B Shah, Tim Dettmers, Yiming Yang, Ameet Talwalkar

ReproRepo是一个可扩展的框架，利用GitHub Issues作为监督信号来评估LLM在可重复性审计中的能力。研究基于1149篇近期机器学习论文，测试了四种前沿智能体配置。最佳配置Codex with GPT-5.5能识别约90%论文的至少一个语义相关的真实可重复性问题。分析表明智能体擅长发现表面故障和语义区域，但精确定位仍不足。代码已开源。

论文 ReproRepo GPT-5.5 Codex 可重复性 LLM智能体

推荐理由：这篇论文提出了一个可扩展的框架，用GitHub Issues来测试LLM智能体找论文代码的复现问题，比现有手动基准好很多，值得看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

10:05

arXiv: Anthropic@Linus Bantel, Anna-Lena Roth, Jonas Posner, Dirk Pflüger

一项新研究使用基于OpenCode的智能体扩展Julia文档MCP服务器，评估了OpenAI GPT-5.5、Anthropic Claude Opus 4.7和开源Qwen3-Coder-Next在三个并行问题（π近似、分块矩阵乘、分块Cholesky分解）上生成Dagger.jl代码的能力。实验在共享内存192核和分布式两节点上进行，与Base.Threads和MPI.jl基线对比。结果显示智能体能生成小规模可执行代码，但在大规模下因死锁、过订阅或内存溢出失败，其中开源模型受影响最严重。商业模型在Base.Threads和MPI.jl上可扩展性相当，但Dagger.jl实现存在任务依赖、粒度和调度方面的反复弱点。

论文 GPT-5.5 Claude Opus 4.7 Qwen3-Coder-Next Julia 并行计算

推荐理由：这篇论文测试了GPT-5.5、Claude Opus 4.7和Qwen3-Coder-Next用智能体写并行Julia代码，在超算上跑192核，发现小规模还行，大规模容易死锁或OOM，开源模型最差。做HPC或Julia并行开发的人值得看。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:15

arXiv cs.AI@Harihara Muralidharan, Reema Baskar, Soo Hee Lee, Tim Proctor, Kenny Workman

研究人员推出了EpiBench，一个用于短周期表观基因组学分析的可验证基准测试。该基准包含106个评估任务，覆盖CUT&Tag/CUT&RUN、ATAC-seq、ChIP-seq和DNA甲基化等流程。在16个模型-工具组合的5088条有效轨迹中，没有系统通过大部分尝试：GPT-5.5/Pi以45.0%的通过率领先，GPT-5.5/OpenAI Codex以39.9%紧随其后。性能因检测类型而异，许多失败运行仍包含部分正确答案，但任务需要更深入的、检测特定的科学判断时，智能体往往失败。这表明当前AI在需要专业领域知识的复杂分析中仍有明显短板。

论文基准测试表观基因组学 AI智能体 GPT-5.5 科学判断

推荐理由：做基因组学分析的团队终于有了一个可复现的AI能力评估标准——EpiBench揭示了当前最强模型在专业科学判断上的天花板，做生物信息学工具开发或AI+生命科学研究的建议点开看看差距在哪。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:11

arXiv cs.AI@Zhiyi Chen, Jie Song, Peng Li

精选72°

TAHOE 是一个新型 Text-to-SQL 系统，通过将提示优化视为动态数据管理问题来提升 LLM 的 SQL 生成质量。它利用错误驱动的提示学习管道，在开发和部署阶段将调试痕迹整合到结构化的提示库中，包括语法提示和语义提示。TAHOE 还引入策略层来建模冲突的用户意图，并通过逻辑规划和 SQL 合成指导推理。在 Spider 2.0-Snow 基准测试中，TAHOE 将 GPT-5.5 的通过率从 61.95% 提升至 79.42%，并实现了 100% 的 Snowflake 语法通过率。该提示库还可迁移到更弱的模型，如 Doubao-2.0-lite 上获得 19.7 个百分点的通过率提升。

论文 Text-to-SQL 提示优化 LLM 数据库 GPT-5.5

推荐理由：TAHOE 解决了 Text-to-SQL 从原型到生产部署的痛点——无需微调模型即可大幅提升 SQL 生成准确率，做数据库应用或数据分析的开发者可以直接用这套方法优化现有 LLM 管线。

原文

6月2日

12:05

arXiv: DeepSeek@Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim

K-BrowseComp 是一个专门针对韩语环境的网页浏览智能体基准测试，包含 400 个问题。其中 300 个问题由韩语母语者手工构建和验证，前沿模型如 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 在该子集上仅达到 30.00-45.67% 的准确率，远低于 BrowseComp 的表现。韩国本土大模型表现更差，仅 0.00-10.33%。研究还构建了 100 个合成问题作为压力测试，最强模型仅达 26.00%。该基准填补了韩语智能体评估的空白，揭示了当前模型在非英语环境下的显著短板。

论文智能体基准测试韩语网页浏览 GPT-5.5 DeepSeek-V4-Pro GLM-5.1

推荐理由：做多语言智能体或网页浏览任务的团队会立刻意识到差距——韩语场景下最强模型准确率不到一半，说明现有评估严重偏向英语。做韩语 NLP 或本地化产品的开发者可以直接用这个基准测试自己的模型。

原文

6月1日

10:49

arXiv: DeepSeek@Xiaonan Xu, Wenjing Wu

精选

一篇来自 arXiv 的论文系统研究了技能文档的呈现粒度对大型语言模型智能体任务成功率的影响。实验基于 SkillsBench 基准，包含 30 个领域平衡的任务，测试了 GPT-5.5 和 DeepSeek V4-Flash 两种模型。结果显示，提供技能文档相比无技能条件，任务平均通过率提升 18 到 36 个百分点，效果显著。然而，技能文档的抽象程度（低抽象 vs 高抽象）以及是否包含示例对成功率的影响很小且统计上不显著。该研究表明，技能可用性是关键因素，而呈现细节的调整影响有限且依赖模型。

论文 LLM Agent 技能文档任务成功率 GPT-5.5 DeepSeek V4-Flash

推荐理由：做 LLM Agent 开发的团队终于有了实证依据：给智能体塞技能文档比纠结怎么写更管用。建议直接参考这个实验设计来优化自己的 RAG 或工具调用策略。

原文

5月26日

11:45

arXiv cs.AI@Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu

精选

Claw-Anything 是一个新基准，旨在评估大型语言模型代理作为始终在线个人助手的能力。现有系统仅能访问用户数字世界的狭窄部分，限制了上下文感知推理和有效协助。该基准通过三个维度扩展代理上下文：长期活动历史、相互依赖的后端服务以及跨多设备的 GUI 和 CLI 交互。实验显示，GPT-5.5 仅达到 34.5% 的 pass@1，远低于先前基准，突显了当前代理能力与始终在线个人助手需求之间的差距。同时，研究团队发布了自动化数据生成管道，可生成 2000 个训练环境，并将基础模型性能提升 23.7%。

论文智能体基准测试个人助手 GPT-5.5 上下文推理

推荐理由：这个基准测试揭示了当前 AI 代理在理解用户完整数字生活方面的巨大短板，做个人助手或智能体开发的团队值得关注——它直接指出了现有系统为何不够智能，并提供了改进方向。

原文

5月25日

11:11

arXiv cs.AI@Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo

精选72°

SkillOpt 提出了一种新方法，将智能体技能视为冻结模型的外部状态，通过独立的优化器模型对技能文档进行有界增删改编辑，并仅在严格提升验证集分数时接受修改。该方法引入了文本学习率预算、拒绝编辑缓冲区和逐轮慢/元更新机制，使技能训练稳定且部署时零额外模型调用。在 6 个基准、7 个目标模型和 3 种执行框架（直接对话、Codex、Claude Code）的 52 个测试单元中，SkillOpt 全部取得最佳或并列最佳，相比无技能基线在 GPT-5.5 上平均提升 19.1-24.8 个百分点。迁移实验表明，优化后的技能在不同模型规模、执行环境和相近数学基准间仍保持价值。

论文智能体技能优化文本空间优化 GPT-5.5 Codex

推荐理由：SkillOpt 解决了智能体技能无法像深度学习权重那样可靠优化的问题，做智能体开发或技能自动生成的团队可以直接用这套方法替代手工调参，效果显著且部署零开销。

原文

5月19日

10:26

arXiv: Anthropic@Isaac David, Arthur Gervais

精选

Anthropic在2026年4月发布的Mythos材料中声称其模型能发现真实漏洞，但本文通过控制实验复现了这些漏洞发现任务。实验让GPT-5.5、Claude Opus 4.7和Kimi K2在给定目标文件、只读源码和手动匹配规则下，尝试复现6个已知漏洞。结果显示，GPT-5.5在54次尝试中仅成功5次（覆盖2/6任务），Claude Opus 4.7成功1次，Kimi K2为0次。主要失败原因是模型过早锁定看似合理的候选错误，而忽略了补丁证据中的具体不变性。该结果不否定Anthropic未公开的工作流程，但表明在有利的靶标文件框架下，系统特定提示仅产生少量匹配。

论文漏洞发现基准测试 GPT-5.5 Claude Opus 4.7 Kimi K2

推荐理由：这个实验戳破了AI漏洞发现能力的泡沫——即使给定了目标文件，顶级模型复现已知漏洞的成功率也极低。做AI安全评估或漏洞研究的团队，看完会重新审视benchmark的可靠性。

原文

5月15日

10:11

arXiv: OpenAI@Matteo Cobelli, Stefano Sanvito

精选

Autoresearch 是一种自动化科学任务的范式，AI 智能体自主提出、实现、评估和优化解决方案。本文提出 Automat 框架，使用基于 GPT-5.5 的 Codex 编码智能体，为化学化合物生成仅基于化学式的成分描述符，并通过随机森林工作流评估。在预测无机材料带隙和铁磁化合物居里温度两个任务中，Automat 超越了分数成分、Magpie 等基线，生成的描述符具有化学可解释性。该研究证明 autoresearch 智能体无需手动特征工程即可生成任务专用描述符，但也暴露了描述符冗余、贪婪特征扩展敏感性和需要复杂度控制等局限性。

论文 Autoresearch 材料科学描述符设计 GPT-5.5 随机森林

推荐理由：材料科学家和 AI for Science 研究者终于有了一个能自动设计描述符的框架——Automat 用 GPT 智能体替代了繁琐的手动特征工程，在带隙和居里温度预测上直接超越经典 Magpie 基线，做材料信息学的团队值得一试。

原文

5月13日

19:12

arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song

精选75°

ExploitGym 是一个大规模、多样化的基准测试，用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例，涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示，前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例，即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险，为防御和攻击场景提供了重要测试平台。

论文安全漏洞 AI智能体基准测试漏洞利用 Claude Mythos Preview GPT-5.5

推荐理由：安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景，做渗透测试或 AI 安全评估的团队可以直接拿来用。

原文