精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:56

arXiv cs.LG@Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian, Wei He, Hang Zhou, Jianyuan Guo, Hailin Hu, Lin Ma, Chao Xu, Guohao Dai, Lixue Xia, Yunchao Wei, Yunhe Wang, Yu Wang

精选

通用智能体（如OpenClaw）在编程任务上的表现难以用现有SWE-bench准确衡量，因为其不满足Docker工作区、补丁和预测合约要求。为此，研究者推出了Claw-SWE-Bench，一个多语言基准测试和适配器协议，能在固定提示、预算、工作区等公平条件下比较不同智能体框架。该基准包含350个GitHub问题实例，覆盖8种语言和43个仓库，并提供了80实例的轻量版Lite用于快速验证。实验显示，OpenClaw在直接适配器下仅得19.1% Pass@1，而完整适配器可达73.4%，表明适配器设计对编程任务至关重要。该基准将框架和成本作为评估核心维度，数据已开源。

论文基准测试编程智能体 OpenClaw SWE-bench 适配器

推荐理由：做智能体编程评估的团队终于有了公平比较的基准——Claw-SWE-Bench解决了不同框架无法直接对比的痛点，建议做Agent评估的开发者直接用它来测试自己的适配器设计。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……