全部 AI 动态 · AI 热点

6月29日

07:03

GitHub@github

精选

GitHub 在 SWE-bench Verified、SWE-bench Pro、SkillsBench、TerminalBench、Win-Hill 五个基准上对 Copilot agentic harness 进行了对比测试。固定模型和任务后，任务解决率与模型原生 harness 持平。在大多数配置下 token 消耗更少，最高可省 30%。Copilot 支持超过 20 个模型，用户可针对任务自由切换效率或质量。

AI产品 GitHub Copilot SWE-bench 编程助手智能体

推荐理由：GitHub 实测了 Copilot 智能体框架，五个基准上不输原生，还省 token，支持 20 多种模型，值得试试。

原文

6月18日

03:57

Stanford AI Lab@StanfordAILab

精选

斯坦福AI实验室提出DeLM（Decentralized Language Models），这是一种无需中央协调器的多Agent协作框架。在SWE-bench Verified基准上，使用Gemini-3 Flash的DeLM实现了约10%的性能提升，同时推理成本降低超过一半。该方法在编程和多文档问答等Agent任务中表现出更高的准确性和经济性。

AI模型 DeLM Gemini-3 Flash SWE-bench 智能体斯坦福

推荐理由：斯坦福搞了个新方法DeLM，不用中央协调器调度Agent，编程和多文档问答更准更便宜，SWE-bench提升10%成本减半，值得试试。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

13:20

Cognition@cognition_labs

Cognition 宣布 AI Productivity Guarantee，承诺如果 Devin 在 30 天内未能提升工程效率，客户可获最高 1000 万美元退款。该保证基于 Devin 在 SWE-bench 上的表现和内部基准测试，覆盖代码生成、调试和部署等任务。Ryan Bai 详细解释了计算方法和验证流程，旨在降低企业采用风险。

行业 Devin Cognition AI生产力编程助手 SWE-bench

推荐理由：Devin 敢赌 1000 万保效率

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:56

arXiv cs.LG@Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian, Wei He, Hang Zhou, Jianyuan Guo, Hailin Hu, Lin Ma, Chao Xu, Guohao Dai, Lixue Xia, Yunchao Wei, Yunhe Wang, Yu Wang

精选

通用智能体（如OpenClaw）在编程任务上的表现难以用现有SWE-bench准确衡量，因为其不满足Docker工作区、补丁和预测合约要求。为此，研究者推出了Claw-SWE-Bench，一个多语言基准测试和适配器协议，能在固定提示、预算、工作区等公平条件下比较不同智能体框架。该基准包含350个GitHub问题实例，覆盖8种语言和43个仓库，并提供了80实例的轻量版Lite用于快速验证。实验显示，OpenClaw在直接适配器下仅得19.1% Pass@1，而完整适配器可达73.4%，表明适配器设计对编程任务至关重要。该基准将框架和成本作为评估核心维度，数据已开源。

论文基准测试编程智能体 OpenClaw SWE-bench 适配器

推荐理由：做智能体编程评估的团队终于有了公平比较的基准——Claw-SWE-Bench解决了不同框架无法直接对比的痛点，建议做Agent评估的开发者直接用它来测试自己的适配器设计。

原文

6月9日

11:45

arXiv cs.AI@Dun Li, Jiatao Li, Hongzhi Li

精选

这篇论文提出了 MetaAI 递归自设计的操作化证据框架，包含四个标准：可检查的目标系统、元级修改器、反馈导向选择和递归延续。作者将 DGM、STOP、Goedel Agent 和 ShinkaEvolve 等公开系统映射到该框架上，其中 DGM 提供了最直接的证据：经过 80 次迭代，SWE-bench Verified 从 20% 提升到 50%，Polyglot 从 14.2% 提升到 30.7%。消融实验表明开放探索和自我改进都有贡献。论文还提供了 MetaAI-Mini，一个基于 HumanEval 的可复现协议和代码库，但目前尚未包含完整模型运行结果。这项工作为 AI 自我改进提供了系统化的评估方法。

论文递归自设计 MetaAI DGM SWE-bench 可复现性

推荐理由：做 AI 自我改进研究的团队终于有了可对照的评估框架——DGM 的 80 轮迭代提升数据值得参考，建议用 MetaAI-Mini 协议复现验证。

原文

6月8日

09:31

shao__meng@shao__meng

精选76°

一篇大规模实证研究评估了仓库级上下文文件（如 AGENTS.md、CLAUDE.md）对编码 Agent 任务完成率的影响。实验覆盖 SWE-bench Lite 和新建 AGENTBENCH 两个基准，测试了 Claude Code、Codex、Qwen Code 等四种 Agent。结果显示，LLM 自动生成的 context file 在多数设置下导致成功率下降（平均 -0.5% 至 -2%），开发者手写的仅提升 +4%，但步数和成本增加 20% 以上。轨迹分析表明 Agent 会过度执行 context file 中的建议性流程，增加复杂度却未提升成功率。当仓库文档齐全时，context file 与现有文档高度冗余，反而可能有害。

技巧 Coding Agent AGENTS.md 上下文文件 SWE-bench 实证研究

推荐理由：这篇论文戳破了 AGENTS.md 的神话——自动生成不仅没用还更贵，手写提升也有限。做 Coding Agent 工具或维护大型仓库的团队，看完会重新评估是否值得投入 context file。

原文

09:25

arXiv cs.AI@Chuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu

72°

Socratic-SWE 是一种新型闭环自我进化框架，它利用 LLM 驱动的软件工程智能体的历史解决追踪来生成训练信号。与传统的固定突变或漏洞注入方法不同，该框架将追踪提炼为结构化技能，总结重复失败和有效修复模式，并指导生成针对性的修复任务。通过执行验证和求解器梯度对齐奖励筛选任务，Socratic-SWE 在 SWE-bench Verified 等基准测试上经过三次迭代达到 50.40% 的准确率，持续超越同等计算预算下的自我进化基线。这表明解决追踪可作为可扩展的自我进化基础，为提升编程智能体能力提供了新路径。

论文智能体编程助手自我进化 SWE-bench LLM

推荐理由：Socratic-SWE 解决了智能体训练数据依赖人工标注的瓶颈，做 AI 编程或智能体开发的团队可以直接借鉴其闭环进化思路，提升模型在真实仓库中的修复能力。

原文

5月23日

22:17

rohanpaul_ai@rohanpaul_ai

精选72°

论文智能体控制层自然语言 SWE-bench 论文

推荐理由：这篇论文戳中了AI智能体工程化的核心痛点——控制层设计比模型选择更关键，做智能体框架或复杂任务自动化的开发者值得一读。

原文

5月13日

21:35

21:35Anthropic: Engineering（资讯）

75°

Anthropic 宣布其 Claude 3.5 Sonnet 模型在 SWE-bench Verified 基准测试中取得了 49.7% 的通过率，较此前最佳成绩提升了约 10 个百分点。该测试评估 AI 模型解决真实 GitHub 问题的能力，包括代码修复、功能实现等。Claude 3.5 Sonnet 在多个类别中表现优异，尤其在需要多步推理和上下文理解的复杂任务上。这一进展表明 AI 在软件工程自动化领域正快速接近人类水平。

AI模型 Claude 3.5 Sonnet SWE-bench 代码修复基准测试编程助手

推荐理由：Claude 3.5 Sonnet 在 SWE-bench 上的突破意味着 AI 编程助手离真正解决复杂工程问题更近了一步，做软件开发的团队可以关注这一能力提升对日常代码修复和功能开发的潜在影响。

原文