10:37arXiv: DeepSeek@Xuan Zhao, Haonan He, Qingyu Yang, Minglei Li, Jingqi Ye, Zelin Tan, Bo Wan, Peng Ye提出ParametricSkills框架,将自由格式的文本技能在测试时转换为LoRA参数适配器。该框架利用大规模技能库和OpenCode合成的单/多轮轨迹训练超网络。在六个软件工程子任务上,比上下文学习平均提升6.44个点(由DeepSeek-V4-Flash评判),BERT Score和F1分数也更高。参数化技能具有累积性,为测试时持续学习提供了初步方向。论文ParametricSkillsOpenCodeDeepSeek-V4-FlashLoRA软件工程2 个信源在谈推荐理由:这篇论文把技能文本直接转成模型参数,编程任务上比上下文学习高出6分多,还能不断积累,挺实用的。原文
09:31arXiv cs.AI@Ali Arabat, Mohammed Sayagh该研究分析了148个项目中15549个由AI智能体(如GitHub Copilot)生成的拉取请求(Agentic-PRs),探讨指令文件对AI智能体性能的影响。研究发现,创建指令文件并不总是提升合并率:27.7%的项目合并率提升至少20%,但26.35%的项目反而下降。代码变更量和合并所需时间等指标也呈现类似分化。初步探索表明,成功提升合并率的项目拥有更长、结构更清晰的指令文件。研究呼吁将指令文件开发视为软件工程活动(Instructions-as-Code),以帮助实践者优化AI协作。论文AI智能体指令文件拉取请求软件工程GitHub Copilot推荐理由:做AI辅助开发的团队会发现,指令文件不是写得越多越好——研究揭示了哪些写法真正有效,建议点开看看如何优化你的项目指令。原文
12:06arXiv: Anthropic@Mikael Gorsky随着AI编程助手普及,软件工程师的工作正从写代码转向指导智能体,但学术界发现当前缺失的不是更好的模型,而是系统化的实践者学科。为此,论文提出ASE-26,一套完整的本科课程体系,包含21个模块,核心概念是“进化螺旋”作为意图与构建共同演化的操作形式。课程还涉及与智能体协作完成作业的评分承诺,以及如何让学科超越当前模型能力。该课程已作为可引用参考存入Zenodo,旨在通过结构化教育填补行业缺乏的智能体软件工程技能。论文智能体软件工程课程体系AI编程教育推荐理由:软件工程教育者或AI工具重度用户会发现,ASE-26直接回应了行业从写代码到指挥智能体的转型痛点,值得参考其课程设计思路。原文
11:44arXiv cs.AI@Bar Weiss, Antonio Abu-Nassar, Adi Sosnovich, Karen Yorav本文提出了一种基于大语言模型的两阶段流水线,用于对代码补丁中的变更进行结构化标签标注(如重命名、移动、逻辑修改等),以提升代码审查效率。该方法先对diff块进行标签分配,再精炼以捕捉结构关系和语义属性,采用少样本提示实现语言无关和可定制的标签,无需传统静态分析管线的工程开销。在人工标注的基准上,最佳配置达到了84%的召回率和81%的精确度。研究表明,LLM标签标注能有效补充静态分析,支持灵活、多语言、可自动化的代码审查工作流。论文代码审查大语言模型结构化标签少样本提示软件工程推荐理由:代码审查团队终于有了更智能的辅助——LLM自动标注变更类型(重命名/移动/逻辑修改),比人工逐行看diff高效太多,做代码审查或CI/CD集成的开发者可以直接参考。原文
10:44arXiv: DeepSeek@Yuxuan Sun, Yuze Zhao, Yufeng Wang, Yao Du, Zhiyuan Ma, Jinbo Wang, Mengdi Zhang, Kai Zhang, Zhenya Huang精选SWE-Mutation 是一个新基准,用于评估大语言模型(LLM)生成的测试套件的质量。它通过引入系统性的变异解决方案来“欺骗”测试套件,从而衡量测试套件的判别能力。该基准包含从800个原始实例衍生的2,636个变异变体,并覆盖九种编程语言。实验表明,即使是DeepSeek-V3.1,其验证率也仅为10.20%,检测率为36.15%,暴露了当前LLM在生成可靠测试套件方面的严重不足。该研究还提出了一种智能体驱动的变异策略,使测试套件更难被欺骗,从而更真实地反映LLM的能力缺陷。论文LLM评估测试套件软件工程变异测试DeepSeek推荐理由:软件工程团队和AI研究者终于有了一个严谨的测试套件质量评估工具——SWE-Mutation能帮你判断LLM生成的测试是否真的可靠,做自动化测试或代码修复的开发者值得关注。原文
13:27arXiv cs.AI@Mohammad Reza Mousavi精选一项新研究测试了 Gemini-3、GPT-5.4 和 Qwen-3.6 三个大模型对高级消息序列图(HMSC)语义的理解能力。HMSC 是 UML 序列图的基础,具有严格的形式语义。研究设计了 129 个语义任务,涵盖基本语义查询、抽象与组合、迹与标签转移系统计算。结果显示,LLM 整体准确率仅约 52%,其中基本语义理解较好(88%),但抽象与组合任务(36%)和迹与 LTS 任务(42%)表现很差。所有模型都未能理解共区域和显式因果依赖等概念。这表明 LLM 在形式化软件工程任务上仍有显著局限。论文LLM形式语义软件工程UML序列图推荐理由:做形式化方法或软件建模的开发者会发现,LLM 对 UML 序列图语义的理解远不如预期,依赖 LLM 生成设计文档时需谨慎验证。原文
19:11arXiv cs.AI@Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, Wen Zhang该论文指出当前AI智能体普遍采用的“即时合成”范式(on-the-fly loop)缺乏严谨的软件工程流程,如迭代设计、严格测试、对抗性评估和分阶段部署,导致实际输出如同“临时原型”,在高风险场景下不可靠。作者提出将软件工程引入智能体循环,打造经过硬化、有确定性约束的生产级agent workflow,并通过复用分摊成本。为此,他们构想了一个“AI Workflow Store”,即存放硬化且可复用的工作流库,智能体可调用这些工作流以显著提升可靠性。论文还探讨了灵活性-鲁棒性张力下的研究挑战。论文智能体AI安全软件工程工作流存储推荐理由:该研究直击当前AI智能体可靠性不足的痛点,提出以工程化工作流复用替代即时合成,为构建生产级智能体系统提供了重要思路,对Agent落地高风险场景具有参考价值。原文