10:37arXiv: DeepSeek@Xuan Zhao, Haonan He, Qingyu Yang, Minglei Li, Jingqi Ye, Zelin Tan, Bo Wan, Peng Ye提出ParametricSkills框架,将自由格式的文本技能在测试时转换为LoRA参数适配器。该框架利用大规模技能库和OpenCode合成的单/多轮轨迹训练超网络。在六个软件工程子任务上,比上下文学习平均提升6.44个点(由DeepSeek-V4-Flash评判),BERT Score和F1分数也更高。参数化技能具有累积性,为测试时持续学习提供了初步方向。论文ParametricSkillsOpenCodeDeepSeek-V4-FlashLoRA软件工程2 个信源在谈推荐理由:这篇论文把技能文本直接转成模型参数,编程任务上比上下文学习高出6分多,还能不断积累,挺实用的。原文
13:48岚叔@lufzzliz文章指出长期依赖AI生成代码会削弱工程师的沉浸式创造能力和职业满足感。作者用历史小说家批量生产而非亲自研究写书的类比,说明类似问题。他自述使用Claude和Codex几个月后,写代码变得懒散迟钝,遇到复杂问题第一反应是让AI找bug或写修复。文章警告AI批量产生的代码如同“数字塑料垃圾”,便宜但长期污染软件生态。技巧ClaudeCodex编程助手软件工程推荐理由:这篇很真实,说透了AI用得越多,自己越容易变懒,得先自己思考再让AI动手。原文
06:12Y Combinator@ycombinatorReynold Xin在YC炉边对话中类比电动机与工厂:AI代理的初效不显著,但重新设计软件工程后可能带来数倍提升。他提出初创公司在构建AI原生产品上有结构优势,因为不受旧架构拖累。下一代基础设施应当从第一天起就为代理工作负载设计,轻量且可扩展。这一观点基于Databricks自身在数据和AI领域的实践经验。行业DatabricksReynold Xin智能体YC软件工程推荐理由:听Databricks联合创始人讲AI代理怎么改变软件开发逻辑,对创业公司尤其有启发。原文
00:56宝玉@dotey精选文章将传统软件工程实践迁移到 AI Agent 开发中,强调需求分析时需给 Agent 充足上下文并反复对齐,系统设计时用 plan 模式拆分里程碑。代码审查建议先让 Agent 审查格式和逻辑,但人需兜底业务逻辑。自动化测试包括单元测试、集成测试和端到端测试,需与 CI 集成自动运行。灰度发布和 CI/CD 机制(如 feature flag、自动回滚)可减少线上不稳定。线上修复目前更现实的是 AI 辅助定位、人确认后再提交,而非全自动闭环。技巧Agent软件工程代码审查自动化测试CI/CD推荐理由:宝玉分享的实操经验:把传统软件工程的代码审查、测试覆盖、灰度发布等方法用到 AI Agent 上,能少写 bug、少修 bug,适合正在用 Agent 写代码的团队。原文
15:24宝玉@dotey处理AI编程助手(如Codex)产生的代码错误时,应优先恢复生产(回滚或打补丁),再找根因(逻辑错误、边界条件、需求偏差)。根据根因决定解决方案,边界问题加测试用例,架构缺陷重构,代码审查漏洞改进流程。仅当错误根因是AI缺乏项目特有约定(如命名规范、API隐含限制)时才更新AGENTS.md。否则会导致AGENTS.md臃肿、规则失效,AI反而忽略重要规则。技巧CodexAGENTS.md编程助手软件工程错误处理推荐理由:别一出bug就怪AI,也别什么都写进AGENTS.md。这篇讲了如何按软件工程流程正确应对,很实在。原文
11:11Simon Willison’s Weblog(博客/媒体)74°2025年3月,纽约州成为美国首个在WARN法案中加入AI披露选项的州,超过160家公司提交通知,无一家勾选AI导致失业。Arvind Narayanan和Sayash Kapoor指出,软件工程瓶颈并非写代码,而是决定构建什么、验证交付物以及对代码库和业务的深度理解。即使AI加速了“代码输入”阶段,软件工程师的价值仍依赖深度理解问题与方案。因此,AI不会导致软件工程师大规模失业。行业Arvind Narayanan软件工程AI替代WARN法案就业推荐理由:AI替代不了软件工程师原文
09:31arXiv cs.AI@Ali Arabat, Mohammed Sayagh该研究分析了148个项目中15549个由AI智能体(如GitHub Copilot)生成的拉取请求(Agentic-PRs),探讨指令文件对AI智能体性能的影响。研究发现,创建指令文件并不总是提升合并率:27.7%的项目合并率提升至少20%,但26.35%的项目反而下降。代码变更量和合并所需时间等指标也呈现类似分化。初步探索表明,成功提升合并率的项目拥有更长、结构更清晰的指令文件。研究呼吁将指令文件开发视为软件工程活动(Instructions-as-Code),以帮助实践者优化AI协作。论文AI智能体指令文件拉取请求软件工程GitHub Copilot推荐理由:做AI辅助开发的团队会发现,指令文件不是写得越多越好——研究揭示了哪些写法真正有效,建议点开看看如何优化你的项目指令。原文
13:42IT之家(博客/媒体)78°Anthropic于6月5日发布博文,指出AI正加速自身研发,迈向递归自我改进,但强调这一阶段尚未到来。AI可稳定独立完成任务的时长约每4个月翻倍,从2024年的4分钟增至2026年的12小时。在Anthropic内部,超过80%的合入代码由Claude编写,工程师人均日代码量较2024年提升8倍。然而,人类在方向把控、问题选择等决策层面仍具优势,AI自我改进仍受算力约束。行业AnthropicClaude递归自我改进AI研发软件工程10 个信源在谈推荐理由:Anthropic用内部数据揭示了AI执行力的惊人跃升,做AI研发或软件工程的团队值得关注——这直接关系到你的工作节奏和工具选择。原文
02:54Lenny Rachitsky@lennysanClaude 的 Fable 5 模型在几乎所有测试基准上达到最先进水平,尤其在软件工程、知识工作、科学研究和视觉任务中表现突出。任务越长越复杂,Fable 5 相对于其他模型的领先优势越大。该模型在单次交互中即可完成《波斯王子》游戏,展示了其强大的推理和规划能力。这标志着 AI 在复杂长任务处理上的重要进步。AI模型ClaudeFable 5基准测试软件工程推理模型10 个信源在谈推荐理由:做复杂软件工程或科学研究的团队,Fable 5 的长任务处理能力值得一试,能显著提升效率。原文
01:08Claude@claudeai精选Fable 5 在几乎所有测试基准上取得最先进成绩,尤其在软件工程、知识工作、科学研究和视觉领域表现卓越。其性能随着任务长度和复杂性增加而领先其他模型更多。此版本在多项评估中展现了全面优势。AI模型Fable 5推理模型多模态软件工程10 个信源在谈推荐理由:Fable 5 全面领先,复杂任务更强原文
06:23rohanpaul_ai@rohanpaul_ai英国《金融时报》发表文章指出,AI 正在加速软件供给,但需求增长并未同步跟上。MIT 最新研究追踪了软件团队从文件编辑到代码审查再到发布的完整流程,发现 AI 帮助开发者创建或编辑了近 300% 更多的文件,但在审查阶段增益降至 150%,最终在发布阶段仅剩约 30%。这表明 AI 在加速局部任务上效果显著,但人类审查、协调、产品判断、测试和发布流程仍决定最终价值。行业AI 编程软件工程生产力MIT 研究代码审查推荐理由:MIT 的漏斗式研究戳破了 AI 编程的泡沫——代码量暴涨不等于交付价值,做工程管理的团队看完会重新评估 AI 工具的实际 ROI。原文
04:43Greg Brockman@gdb72°OpenAI 发布了 Codex 的数十个真实世界工作流用例,展示了团队如何用它自动化工作。用例涵盖从软件工程、设计到数据分析和运维,包括管理收件箱、审查 GitHub PR、将 Figma 设计转为生产代码、快速理解大型代码库、自动化 bug 分类和 QA 流程、用自然语言查询电子表格、从提示直接部署应用、更快构建 Mac 和 iOS 应用、自动创建幻灯片、将 Slack 线程转为编码任务等。OpenAI 表示 Codex 正在从 AI 助手转变为 AI 队友。AI产品CodexAI 队友自动化工作流软件工程OpenAI10 个信源在谈推荐理由:OpenAI 把 Codex 从助手升级为队友,这些真实用例覆盖了开发、设计、运维全流程,做自动化或想提升团队效率的可以直接参考复用。原文
06:43Augment Code@augmentcode76°Augment Code 宣布推出 Cosmos,这是一个面向软件团队的统一智能体平台。该平台允许团队在整个软件开发生命周期中编排多个智能体,将它们整合为一个单一的组织系统,而非孤立的工人。据官方称,Cosmos 已改变了其自身工程团队的工作方式,吞吐量提升了 3 倍。这标志着 AI 辅助开发从单点工具向系统化协作平台的重要演进。AI产品智能体软件工程Augment CodeCosmos开发平台推荐理由:软件团队终于有了一个能统一管理多个 AI 智能体的平台,解决了智能体碎片化的问题。做工程管理的团队可以直接参考其 3 倍吞吐量提升的实践,建议点开了解如何编排智能体。原文
12:06arXiv: Anthropic@Mikael Gorsky随着AI编程助手普及,软件工程师的工作正从写代码转向指导智能体,但学术界发现当前缺失的不是更好的模型,而是系统化的实践者学科。为此,论文提出ASE-26,一套完整的本科课程体系,包含21个模块,核心概念是“进化螺旋”作为意图与构建共同演化的操作形式。课程还涉及与智能体协作完成作业的评分承诺,以及如何让学科超越当前模型能力。该课程已作为可引用参考存入Zenodo,旨在通过结构化教育填补行业缺乏的智能体软件工程技能。论文智能体软件工程课程体系AI编程教育推荐理由:软件工程教育者或AI工具重度用户会发现,ASE-26直接回应了行业从写代码到指挥智能体的转型痛点,值得参考其课程设计思路。原文
06:50@OpenAIDevs@OpenAIDevs72°OpenAI 宣布其前沿模型和 Codex 已在 Amazon Bedrock 上正式可用。企业现在可以在 AWS 环境中直接使用 OpenAI 模型构建 AI 应用和软件工程工作流,同时利用 AWS 已有的安全、合规和治理控制。这是 OpenAI 在 AWS 上扩展能力的开端,未来还将包括 Daybreak 等网络安全功能。此举让企业无需离开 AWS 生态即可调用 OpenAI 模型,简化了部署和合规流程。AI产品OpenAICodexAWS Bedrock企业级AI软件工程10 个信源在谈推荐理由:AWS 用户终于可以在熟悉的云环境中直接调用 OpenAI 模型和 Codex,省去跨平台集成的麻烦。做 AI 应用开发或软件工程自动化的团队,建议关注这个新入口。原文
05:21rohanpaul_ai@rohanpaul_ai72°Datacurve 推出 DeepSWE,一个更严格的编程基准测试,旨在揭示领先模型之间的真实差距。GPT-5.5 得分 70%,而 GPT-5.4 为 56%,Claude Opus 4.7 为 54%,差距在旧基准中常被掩盖。DeepSWE 使用原创任务而非公开 GitHub 问题,避免模型训练时见过答案。其提示词长度仅为 SWE-bench Pro 的一半,但解决方案需要 5.5 倍代码量和约 2 倍输出 token。评分方式也不同,DeepSWE 检查请求行为是否真正实现,而非仅依赖合并 PR 的测试。AI模型基准测试编程能力GPT-5.5Claude Opus软件工程1 个信源在谈推荐理由:做 AI 模型评估或选型的团队,DeepSWE 能帮你看到模型在长周期软件工程任务上的真实差距,建议关注这个新基准。原文
11:44arXiv cs.AI@Bar Weiss, Antonio Abu-Nassar, Adi Sosnovich, Karen Yorav本文提出了一种基于大语言模型的两阶段流水线,用于对代码补丁中的变更进行结构化标签标注(如重命名、移动、逻辑修改等),以提升代码审查效率。该方法先对diff块进行标签分配,再精炼以捕捉结构关系和语义属性,采用少样本提示实现语言无关和可定制的标签,无需传统静态分析管线的工程开销。在人工标注的基准上,最佳配置达到了84%的召回率和81%的精确度。研究表明,LLM标签标注能有效补充静态分析,支持灵活、多语言、可自动化的代码审查工作流。论文代码审查大语言模型结构化标签少样本提示软件工程推荐理由:代码审查团队终于有了更智能的辅助——LLM自动标注变更类型(重命名/移动/逻辑修改),比人工逐行看diff高效太多,做代码审查或CI/CD集成的开发者可以直接参考。原文
10:44arXiv: DeepSeek@Yuxuan Sun, Yuze Zhao, Yufeng Wang, Yao Du, Zhiyuan Ma, Jinbo Wang, Mengdi Zhang, Kai Zhang, Zhenya Huang精选SWE-Mutation 是一个新基准,用于评估大语言模型(LLM)生成的测试套件的质量。它通过引入系统性的变异解决方案来“欺骗”测试套件,从而衡量测试套件的判别能力。该基准包含从800个原始实例衍生的2,636个变异变体,并覆盖九种编程语言。实验表明,即使是DeepSeek-V3.1,其验证率也仅为10.20%,检测率为36.15%,暴露了当前LLM在生成可靠测试套件方面的严重不足。该研究还提出了一种智能体驱动的变异策略,使测试套件更难被欺骗,从而更真实地反映LLM的能力缺陷。论文LLM评估测试套件软件工程变异测试DeepSeek推荐理由:软件工程团队和AI研究者终于有了一个严谨的测试套件质量评估工具——SWE-Mutation能帮你判断LLM生成的测试是否真的可靠,做自动化测试或代码修复的开发者值得关注。原文
08:00Scott Wu@ScottWu46Cognition 创始人 Scott Wu 发推感谢与 Anthropic 团队的深度合作,并调侃自己中学数学视频被 Claude 记住。他领导的团队基于 Claude 构建了 AI 软件工程师 Devin,目标是让每个工程团队的软件开发速度提升 10 倍。Devin 能自主规划、编写代码、调试并部署,代表了 AI 编程助手从辅助到自主的重大转变。这条推文引发广泛关注,显示 AI 编程工具正加速进入工程团队日常。AI产品AI 编程助手DevinClaudeCognition软件工程10 个信源在谈推荐理由:Devin 基于 Claude 实现了从辅助到自主编程的跨越,做软件工程的团队值得关注——它可能改变你每天写代码的方式。原文
22:25Y Combinator@ycombinator73°Y Combinator 邀请 RevenueCat、Greptile、Firecrawl、Infisical、Ollama、Resend、Mintlify、UnslothAI、Porter、Recall 等 12 家 DevTool 公司的创始人,围绕 AI 智能体现状和软件工程未来展开深度对话。讨论涵盖智能体作为客户、编码是否终结、创始人早期常见错误、最意外的 AI 发现、当前被低估的方向以及未来预测。创始人们的观点可能出乎你的意料。视频全长约 15 分钟,涵盖 7 个主题章节。行业AI 智能体DevTool软件工程创始人访谈Y Combinator推荐理由:12 位一线 DevTool 创始人亲述智能体趋势和踩坑经验,做开发者工具或 AI 应用的团队看完会有共鸣,建议直接看视频。原文
13:27arXiv cs.AI@Mohammad Reza Mousavi精选一项新研究测试了 Gemini-3、GPT-5.4 和 Qwen-3.6 三个大模型对高级消息序列图(HMSC)语义的理解能力。HMSC 是 UML 序列图的基础,具有严格的形式语义。研究设计了 129 个语义任务,涵盖基本语义查询、抽象与组合、迹与标签转移系统计算。结果显示,LLM 整体准确率仅约 52%,其中基本语义理解较好(88%),但抽象与组合任务(36%)和迹与 LTS 任务(42%)表现很差。所有模型都未能理解共区域和显式因果依赖等概念。这表明 LLM 在形式化软件工程任务上仍有显著局限。论文LLM形式语义软件工程UML序列图推荐理由:做形式化方法或软件建模的开发者会发现,LLM 对 UML 序列图语义的理解远不如预期,依赖 LLM 生成设计文档时需谨慎验证。原文
19:11arXiv cs.AI@Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, Wen Zhang该论文指出当前AI智能体普遍采用的“即时合成”范式(on-the-fly loop)缺乏严谨的软件工程流程,如迭代设计、严格测试、对抗性评估和分阶段部署,导致实际输出如同“临时原型”,在高风险场景下不可靠。作者提出将软件工程引入智能体循环,打造经过硬化、有确定性约束的生产级agent workflow,并通过复用分摊成本。为此,他们构想了一个“AI Workflow Store”,即存放硬化且可复用的工作流库,智能体可调用这些工作流以显著提升可靠性。论文还探讨了灵活性-鲁棒性张力下的研究挑战。论文智能体AI安全软件工程工作流存储推荐理由:该研究直击当前AI智能体可靠性不足的痛点,提出以工程化工作流复用替代即时合成,为构建生产级智能体系统提供了重要思路,对Agent落地高风险场景具有参考价值。原文