全部 AI 动态 · AI 热点

6月23日

10:36

10:36

arXiv cs.LG@Muhammad Bilal, Ali Hassaan Mughal

该论文分析了一个生产级租赁搜索助手，其自动化测试套件在六周内增长到1,553个测试用例。尽管套件持续通过，用户可见缺陷仍不断进入生产环境。研究检查了项目中所有252个bug修复提交，发现约44%的修复属于四个无法被组件级单元测试观察的接缝：实时浏览器运行时、非默认市场、端到端流程和全系统级别。一个缺陷因缺少接缝防护而两次发布。论文提出了四接缝框架和实测缺陷分布。

论文 LLM 多市场 Web应用软件测试缺陷分析

推荐理由：这篇论文用252个真实bug数据，告诉你怎么测试全绿依然出bug，给所有做LLM应用的人敲响警钟。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？