全部 AI 动态 · AI 热点

6月30日

10:37

arXiv: DeepSeek@Xuan Zhao, Haonan He, Qingyu Yang, Minglei Li, Jingqi Ye, Zelin Tan, Bo Wan, Peng Ye

提出ParametricSkills框架，将自由格式的文本技能在测试时转换为LoRA参数适配器。该框架利用大规模技能库和OpenCode合成的单/多轮轨迹训练超网络。在六个软件工程子任务上，比上下文学习平均提升6.44个点（由DeepSeek-V4-Flash评判），BERT Score和F1分数也更高。参数化技能具有累积性，为测试时持续学习提供了初步方向。

论文 ParametricSkills OpenCode DeepSeek-V4-Flash LoRA 软件工程

推荐理由：这篇论文把技能文本直接转成模型参数，编程任务上比上下文学习高出6分多，还能不断积累，挺实用的。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:31

arXiv cs.AI@Ali Arabat, Mohammed Sayagh

该研究分析了148个项目中15549个由AI智能体（如GitHub Copilot）生成的拉取请求（Agentic-PRs），探讨指令文件对AI智能体性能的影响。研究发现，创建指令文件并不总是提升合并率：27.7%的项目合并率提升至少20%，但26.35%的项目反而下降。代码变更量和合并所需时间等指标也呈现类似分化。初步探索表明，成功提升合并率的项目拥有更长、结构更清晰的指令文件。研究呼吁将指令文件开发视为软件工程活动（Instructions-as-Code），以帮助实践者优化AI协作。

论文 AI智能体指令文件拉取请求软件工程 GitHub Copilot

推荐理由：做AI辅助开发的团队会发现，指令文件不是写得越多越好——研究揭示了哪些写法真正有效，建议点开看看如何优化你的项目指令。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

12:06

arXiv: Anthropic@Mikael Gorsky

随着AI编程助手普及，软件工程师的工作正从写代码转向指导智能体，但学术界发现当前缺失的不是更好的模型，而是系统化的实践者学科。为此，论文提出ASE-26，一套完整的本科课程体系，包含21个模块，核心概念是“进化螺旋”作为意图与构建共同演化的操作形式。课程还涉及与智能体协作完成作业的评分承诺，以及如何让学科超越当前模型能力。该课程已作为可引用参考存入Zenodo，旨在通过结构化教育填补行业缺乏的智能体软件工程技能。

论文智能体软件工程课程体系 AI编程教育

推荐理由：软件工程教育者或AI工具重度用户会发现，ASE-26直接回应了行业从写代码到指挥智能体的转型痛点，值得参考其课程设计思路。

原文

5月26日

11:44

arXiv cs.AI@Bar Weiss, Antonio Abu-Nassar, Adi Sosnovich, Karen Yorav

本文提出了一种基于大语言模型的两阶段流水线，用于对代码补丁中的变更进行结构化标签标注（如重命名、移动、逻辑修改等），以提升代码审查效率。该方法先对diff块进行标签分配，再精炼以捕捉结构关系和语义属性，采用少样本提示实现语言无关和可定制的标签，无需传统静态分析管线的工程开销。在人工标注的基准上，最佳配置达到了84%的召回率和81%的精确度。研究表明，LLM标签标注能有效补充静态分析，支持灵活、多语言、可自动化的代码审查工作流。

论文代码审查大语言模型结构化标签少样本提示软件工程

推荐理由：代码审查团队终于有了更智能的辅助——LLM自动标注变更类型（重命名/移动/逻辑修改），比人工逐行看diff高效太多，做代码审查或CI/CD集成的开发者可以直接参考。

原文

5月22日

10:44

arXiv: DeepSeek@Yuxuan Sun, Yuze Zhao, Yufeng Wang, Yao Du, Zhiyuan Ma, Jinbo Wang, Mengdi Zhang, Kai Zhang, Zhenya Huang

精选

SWE-Mutation 是一个新基准，用于评估大语言模型（LLM）生成的测试套件的质量。它通过引入系统性的变异解决方案来“欺骗”测试套件，从而衡量测试套件的判别能力。该基准包含从800个原始实例衍生的2,636个变异变体，并覆盖九种编程语言。实验表明，即使是DeepSeek-V3.1，其验证率也仅为10.20%，检测率为36.15%，暴露了当前LLM在生成可靠测试套件方面的严重不足。该研究还提出了一种智能体驱动的变异策略，使测试套件更难被欺骗，从而更真实地反映LLM的能力缺陷。

论文 LLM评估测试套件软件工程变异测试 DeepSeek

推荐理由：软件工程团队和AI研究者终于有了一个严谨的测试套件质量评估工具——SWE-Mutation能帮你判断LLM生成的测试是否真的可靠，做自动化测试或代码修复的开发者值得关注。

原文

5月14日

13:27

arXiv cs.AI@Mohammad Reza Mousavi

精选

一项新研究测试了 Gemini-3、GPT-5.4 和 Qwen-3.6 三个大模型对高级消息序列图（HMSC）语义的理解能力。HMSC 是 UML 序列图的基础，具有严格的形式语义。研究设计了 129 个语义任务，涵盖基本语义查询、抽象与组合、迹与标签转移系统计算。结果显示，LLM 整体准确率仅约 52%，其中基本语义理解较好（88%），但抽象与组合任务（36%）和迹与 LTS 任务（42%）表现很差。所有模型都未能理解共区域和显式因果依赖等概念。这表明 LLM 在形式化软件工程任务上仍有显著局限。

论文 LLM 形式语义软件工程 UML 序列图

推荐理由：做形式化方法或软件建模的开发者会发现，LLM 对 UML 序列图语义的理解远不如预期，依赖 LLM 生成设计文档时需谨慎验证。

原文

5月12日

19:11

arXiv cs.AI@Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, Wen Zhang

该论文指出当前AI智能体普遍采用的“即时合成”范式（on-the-fly loop）缺乏严谨的软件工程流程，如迭代设计、严格测试、对抗性评估和分阶段部署，导致实际输出如同“临时原型”，在高风险场景下不可靠。作者提出将软件工程引入智能体循环，打造经过硬化、有确定性约束的生产级agent workflow，并通过复用分摊成本。为此，他们构想了一个“AI Workflow Store”，即存放硬化且可复用的工作流库，智能体可调用这些工作流以显著提升可靠性。论文还探讨了灵活性-鲁棒性张力下的研究挑战。

论文智能体 AI安全软件工程工作流存储

推荐理由：该研究直击当前AI智能体可靠性不足的痛点，提出以工程化工作流复用替代即时合成，为构建生产级智能体系统提供了重要思路，对Agent落地高风险场景具有参考价值。

原文