全部 AI 动态 · AI 热点

6月29日

10:06

10:06

arXiv: DeepSeek@Lei Yu, Peng Wang, Jia Xu, Jingyuan Zhang, Xin Wang, Jiajia Ma, Li Yang, Changzhi Deng, Zenghua Wang, Fengjun Zhang

BashCoder-R1提出三阶段框架：连续预训练(CPT)专业化Bash范式、长思维链监督微调(L-CoT SFT)模拟风险意识推理、鲁棒性感知分组相对策略优化(R-GRPO)优化语法与鲁棒性。在包含952个真实任务(773单行,179多行)的BashBench基准上，单行/多行任务SyntaxPass达100.00%/94.97%，RobustPass达95.99%/79.33%，FullRate达90.04%/73.18%。相比最强基线DeepSeek-V3.2(推理)在FullRate上分别提升37.82%和20.18%。

AI模型 BashCoder-R1 BashBench DeepSeek 编程助手推理模型

推荐理由：BashCoder-R1用三阶段训练让AI写bash脚本更稳更可解释，在BashBench上比DeepSeek-V3.2完整率高出一大截。

6月26日

09:47

09:47

arXiv cs.AI@Hartwig Grabowski

论文提出Spec Growth Engine框架，解决AI编码代理的两个结构性失效：上下文爆炸和规范-代码漂移。框架包含机器可读的规范图（节点携带明确契约/设计分离）、Spine上下文组装器（将代理上下文限定到所有权路径）、垂直切片增长协议（强制最难优先排序）和漂移门（使规范-代码分歧成为阻塞合并条件）。该设计综合Parnas信息隐藏、C4、ADR、Walking Skeleton、Reflexion Models、Fitness Functions等成熟工程原则，形成轻量级代码耦合整体，无需RUP或MDA等重型框架。

论文 Spec Growth Engine AI辅助软件开发编程助手规范驱动

推荐理由：这篇论文很实在，专门解决AI写代码时规范和代码脱节、上下文爆炸的难题。作者搞了个轻量框架，用规范图和漂移门来管住，适合做AI辅助开发的工程实践参考。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

11:03

11:03

arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov

ThinkBooster 是一个统一的测试时计算（TTC）扩展框架，旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试，以及兼容OpenAI的代理服务，支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡，并展示了实际增益。代码以MIT许可证开源。

论文推理模型测试时计算扩展开源/仓库性能评估编程助手

推荐理由：做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益，不用再自己拼凑评估流程，建议直接试。

09:25

09:25

arXiv cs.AI@Chuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu

72°

Socratic-SWE 是一种新型闭环自我进化框架，它利用 LLM 驱动的软件工程智能体的历史解决追踪来生成训练信号。与传统的固定突变或漏洞注入方法不同，该框架将追踪提炼为结构化技能，总结重复失败和有效修复模式，并指导生成针对性的修复任务。通过执行验证和求解器梯度对齐奖励筛选任务，Socratic-SWE 在 SWE-bench Verified 等基准测试上经过三次迭代达到 50.40% 的准确率，持续超越同等计算预算下的自我进化基线。这表明解决追踪可作为可扩展的自我进化基础，为提升编程智能体能力提供了新路径。

论文智能体编程助手自我进化 SWE-bench LLM

推荐理由：Socratic-SWE 解决了智能体训练数据依赖人工标注的瓶颈，做 AI 编程或智能体开发的团队可以直接借鉴其闭环进化思路，提升模型在真实仓库中的修复能力。

5月12日

19:11

19:11

arXiv: DeepSeek@Weilin He, Arindam Sharma, Cristina David

该研究针对LLM代码生成缺乏正确性保证的问题，提出了一种基于语义距离的不确定性估计方法。与传统样本估计仅度量输出是否一致不同，新方法衡量候选程序执行行为的差异程度。在LiveCodeBench、MBPP等基准测试上，该方法在Python、Java、C++语言上均优于现有基线，且无需访问模型内部或调用LLM作为裁判，运行时间减少48%-79%。研究首次引入分类法厘清不确定性估计的设计维度，填补了语义感知估计这一空白。

论文代码生成不确定性估计语义距离 LLM可靠性编程助手

推荐理由：该工作为LLM代码生成提供了更实用的不确定性估计方案，在效率与效果上均取得显著提升，对提升代码生成系统的可靠性和安全性具有实践指导意义。