全部 AI 动态 · AI 热点

6月29日

13:48

13:48

岚叔@lufzzliz

文章指出长期依赖AI生成代码会削弱工程师的沉浸式创造能力和职业满足感。作者用历史小说家批量生产而非亲自研究写书的类比，说明类似问题。他自述使用Claude和Codex几个月后，写代码变得懒散迟钝，遇到复杂问题第一反应是让AI找bug或写修复。文章警告AI批量产生的代码如同“数字塑料垃圾”，便宜但长期污染软件生态。

技巧 Claude Codex 编程助手软件工程

推荐理由：这篇很真实，说透了AI用得越多，自己越容易变懒，得先自己思考再让AI动手。

6月24日

06:12

06:12

Y Combinator@ycombinator

Reynold Xin在YC炉边对话中类比电动机与工厂：AI代理的初效不显著，但重新设计软件工程后可能带来数倍提升。他提出初创公司在构建AI原生产品上有结构优势，因为不受旧架构拖累。下一代基础设施应当从第一天起就为代理工作负载设计，轻量且可扩展。这一观点基于Databricks自身在数据和AI领域的实践经验。

行业 Databricks Reynold Xin 智能体 YC 软件工程

推荐理由：听Databricks联合创始人讲AI代理怎么改变软件开发逻辑，对创业公司尤其有启发。

6月21日

00:56

00:56

宝玉@dotey

精选

文章将传统软件工程实践迁移到 AI Agent 开发中，强调需求分析时需给 Agent 充足上下文并反复对齐，系统设计时用 plan 模式拆分里程碑。代码审查建议先让 Agent 审查格式和逻辑，但人需兜底业务逻辑。自动化测试包括单元测试、集成测试和端到端测试，需与 CI 集成自动运行。灰度发布和 CI/CD 机制（如 feature flag、自动回滚）可减少线上不稳定。线上修复目前更现实的是 AI 辅助定位、人确认后再提交，而非全自动闭环。

技巧 Agent 软件工程代码审查自动化测试 CI/CD

推荐理由：宝玉分享的实操经验：把传统软件工程的代码审查、测试覆盖、灰度发布等方法用到 AI Agent 上，能少写 bug、少修 bug，适合正在用 Agent 写代码的团队。

6月20日

15:24

15:24

宝玉@dotey

处理AI编程助手（如Codex）产生的代码错误时，应优先恢复生产（回滚或打补丁），再找根因（逻辑错误、边界条件、需求偏差）。根据根因决定解决方案，边界问题加测试用例，架构缺陷重构，代码审查漏洞改进流程。仅当错误根因是AI缺乏项目特有约定（如命名规范、API隐含限制）时才更新AGENTS.md。否则会导致AGENTS.md臃肿、规则失效，AI反而忽略重要规则。

技巧 Codex AGENTS.md 编程助手软件工程错误处理

推荐理由：别一出bug就怪AI，也别什么都写进AGENTS.md。这篇讲了如何按软件工程流程正确应对，很实在。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

02:54

02:54

Lenny Rachitsky@lennysan

Claude 的 Fable 5 模型在几乎所有测试基准上达到最先进水平，尤其在软件工程、知识工作、科学研究和视觉任务中表现突出。任务越长越复杂，Fable 5 相对于其他模型的领先优势越大。该模型在单次交互中即可完成《波斯王子》游戏，展示了其强大的推理和规划能力。这标志着 AI 在复杂长任务处理上的重要进步。

AI模型 Claude Fable 5 基准测试软件工程推理模型

推荐理由：做复杂软件工程或科学研究的团队，Fable 5 的长任务处理能力值得一试，能显著提升效率。

01:08

01:08

Claude@claudeai

精选

Fable 5 在几乎所有测试基准上取得最先进成绩，尤其在软件工程、知识工作、科学研究和视觉领域表现卓越。其性能随着任务长度和复杂性增加而领先其他模型更多。此版本在多项评估中展现了全面优势。

AI模型 Fable 5 推理模型多模态软件工程

推荐理由：Fable 5 全面领先，复杂任务更强

6月8日

06:23

06:23

rohanpaul_ai@rohanpaul_ai

英国《金融时报》发表文章指出，AI 正在加速软件供给，但需求增长并未同步跟上。MIT 最新研究追踪了软件团队从文件编辑到代码审查再到发布的完整流程，发现 AI 帮助开发者创建或编辑了近 300% 更多的文件，但在审查阶段增益降至 150%，最终在发布阶段仅剩约 30%。这表明 AI 在加速局部任务上效果显著，但人类审查、协调、产品判断、测试和发布流程仍决定最终价值。

行业 AI 编程软件工程生产力 MIT 研究代码审查

推荐理由：MIT 的漏斗式研究戳破了 AI 编程的泡沫——代码量暴涨不等于交付价值，做工程管理的团队看完会重新评估 AI 工具的实际 ROI。

04:43

04:43

Greg Brockman@gdb

72°

OpenAI 发布了 Codex 的数十个真实世界工作流用例，展示了团队如何用它自动化工作。用例涵盖从软件工程、设计到数据分析和运维，包括管理收件箱、审查 GitHub PR、将 Figma 设计转为生产代码、快速理解大型代码库、自动化 bug 分类和 QA 流程、用自然语言查询电子表格、从提示直接部署应用、更快构建 Mac 和 iOS 应用、自动创建幻灯片、将 Slack 线程转为编码任务等。OpenAI 表示 Codex 正在从 AI 助手转变为 AI 队友。

AI产品 Codex AI 队友自动化工作流软件工程 OpenAI

推荐理由：OpenAI 把 Codex 从助手升级为队友，这些真实用例覆盖了开发、设计、运维全流程，做自动化或想提升团队效率的可以直接参考复用。

6月4日

06:43

06:43

Augment Code@augmentcode

76°

Augment Code 宣布推出 Cosmos，这是一个面向软件团队的统一智能体平台。该平台允许团队在整个软件开发生命周期中编排多个智能体，将它们整合为一个单一的组织系统，而非孤立的工人。据官方称，Cosmos 已改变了其自身工程团队的工作方式，吞吐量提升了 3 倍。这标志着 AI 辅助开发从单点工具向系统化协作平台的重要演进。

AI产品智能体软件工程 Augment Code Cosmos 开发平台

推荐理由：软件团队终于有了一个能统一管理多个 AI 智能体的平台，解决了智能体碎片化的问题。做工程管理的团队可以直接参考其 3 倍吞吐量提升的实践，建议点开了解如何编排智能体。

6月2日

06:50

06:50

@OpenAIDevs@OpenAIDevs

72°

OpenAI 宣布其前沿模型和 Codex 已在 Amazon Bedrock 上正式可用。企业现在可以在 AWS 环境中直接使用 OpenAI 模型构建 AI 应用和软件工程工作流，同时利用 AWS 已有的安全、合规和治理控制。这是 OpenAI 在 AWS 上扩展能力的开端，未来还将包括 Daybreak 等网络安全功能。此举让企业无需离开 AWS 生态即可调用 OpenAI 模型，简化了部署和合规流程。

AI产品 OpenAI Codex AWS Bedrock 企业级AI 软件工程

推荐理由：AWS 用户终于可以在熟悉的云环境中直接调用 OpenAI 模型和 Codex，省去跨平台集成的麻烦。做 AI 应用开发或软件工程自动化的团队，建议关注这个新入口。

5月28日

05:21

05:21

rohanpaul_ai@rohanpaul_ai

72°

Datacurve 推出 DeepSWE，一个更严格的编程基准测试，旨在揭示领先模型之间的真实差距。GPT-5.5 得分 70%，而 GPT-5.4 为 56%，Claude Opus 4.7 为 54%，差距在旧基准中常被掩盖。DeepSWE 使用原创任务而非公开 GitHub 问题，避免模型训练时见过答案。其提示词长度仅为 SWE-bench Pro 的一半，但解决方案需要 5.5 倍代码量和约 2 倍输出 token。评分方式也不同，DeepSWE 检查请求行为是否真正实现，而非仅依赖合并 PR 的测试。

AI模型基准测试编程能力 GPT-5.5 Claude Opus 软件工程

推荐理由：做 AI 模型评估或选型的团队，DeepSWE 能帮你看到模型在长周期软件工程任务上的真实差距，建议关注这个新基准。

5月21日

08:00

08:00

Scott Wu@ScottWu46

Cognition 创始人 Scott Wu 发推感谢与 Anthropic 团队的深度合作，并调侃自己中学数学视频被 Claude 记住。他领导的团队基于 Claude 构建了 AI 软件工程师 Devin，目标是让每个工程团队的软件开发速度提升 10 倍。Devin 能自主规划、编写代码、调试并部署，代表了 AI 编程助手从辅助到自主的重大转变。这条推文引发广泛关注，显示 AI 编程工具正加速进入工程团队日常。

AI产品 AI 编程助手 Devin Claude Cognition 软件工程

推荐理由：Devin 基于 Claude 实现了从辅助到自主编程的跨越，做软件工程的团队值得关注——它可能改变你每天写代码的方式。

5月16日

22:25

22:25

Y Combinator@ycombinator

73°

Y Combinator 邀请 RevenueCat、Greptile、Firecrawl、Infisical、Ollama、Resend、Mintlify、UnslothAI、Porter、Recall 等 12 家 DevTool 公司的创始人，围绕 AI 智能体现状和软件工程未来展开深度对话。讨论涵盖智能体作为客户、编码是否终结、创始人早期常见错误、最意外的 AI 发现、当前被低估的方向以及未来预测。创始人们的观点可能出乎你的意料。视频全长约 15 分钟，涵盖 7 个主题章节。

行业 AI 智能体 DevTool 软件工程创始人访谈 Y Combinator

推荐理由：12 位一线 DevTool 创始人亲述智能体趋势和踩坑经验，做开发者工具或 AI 应用的团队看完会有共鸣，建议直接看视频。