12:34arXiv: OpenAI@Haoran Yu, Lifei Liu, Xiaochong Jiang, Yuwen Jia, Su Wang, Pin Qian, Yihang Chen一项基于AIDev数据集的长达七个月的纵向分析(400名重复审查者,共11,429条审查记录)发现,审查者对AI生成代码的批准率从30.1%上升至36.8%(Wilcoxon符号秩检验p<10^{-6})。随经验增加,批准率累计差距达14.5个百分点。与此同时,行内评论量下降22%(p=0.0014),但审查延迟增加3.5倍。这种模式提示审查者可能因工作负荷而产生习惯性麻木,而非理性信任调整。论文GitHub CopilotDevinOpenAI CodexCursor代码审查智能体2 个信源在谈推荐理由:这篇论文用真实数据告诉你,人类审查AI代码时会越来越松懈——批准率涨了,评论却少了。做AI代码审核的团队应该看看。原文
07:43Cognition@cognition_labsCognition 宣布将安全审查集成到 Devin Review 中。每次开发者提交 PR 时,Devin 自动运行安全扫描,识别那些传统漏洞扫描器遗漏的安全问题。Devin 还会为每个漏洞提供详细解释,并自动生成修复代码。该功能旨在帮助团队在不增加额外工作量的情况下提升代码安全性。AI产品DevinCognition安全审查漏洞修复编程助手推荐理由:Devin 现在能自动帮你审计 PR 里的安全漏洞,发现那些扫描器漏掉的,还直接给修复方案,省心。原文
13:20Cognition@cognition_labsCognition 宣布 AI Productivity Guarantee,承诺如果 Devin 在 30 天内未能提升工程效率,客户可获最高 1000 万美元退款。该保证基于 Devin 在 SWE-bench 上的表现和内部基准测试,覆盖代码生成、调试和部署等任务。Ryan Bai 详细解释了计算方法和验证流程,旨在降低企业采用风险。行业DevinCognitionAI生产力编程助手SWE-bench推荐理由:Devin 敢赌 1000 万保效率原文
10:21Cognition@cognition_labsCognition 宣布根据 Anthropic 最新公告和美国政府指令,暂停其产品中 Claude Fable 5 模型的访问。Devin 平台仍保留 Claude Opus 4.8 和 GPT-5.5 等其他模型。Devin Ultra 模式将继续使用最强可用模型。行业Claude Fable 5CognitionDevinAnthropicAI安全10 个信源在谈推荐理由:模型被禁,Devin 换方案原文
13:55arXiv cs.AI@Mahmoud Abujadallah, Ali Arabat, Mohammed Sayagh一项基于AIDev数据集的研究发现,Copilot、Devin、Cursor和Claude等AI编程助手生成的代码修复PR中,46.41%被开发者拒绝。研究者对306个未合并PR进行定性和定量分析,归纳出14个拒绝原因,分为四类:实现不正确(如不完整、错误方法)、未通过CI测试、代理无法完成实现(如未生成代码、会话丢失)、以及优先级低。研究建议,应通过提供修复方法提示、明确约束限制、指导CI验证流程来提升AI代理的有效性,并强调任务优先级管理以减少资源浪费。论文AI编程助手代码修复PR拒绝CopilotDevin7 个信源在谈推荐理由:AI编程助手生成的代码修复近一半被拒,浪费大量人力审查和计算资源——做AI辅助开发的团队和工具开发者,建议看看这14个失败原因,能帮你避免踩坑。原文
13:31swyx (AI Engineer)@swyxMythos 正式上线,其 FrontierCode 被认定为下一代编程基准。在 FC Diamond 测试中,Opus 4.8 和 GPT 5.5 在随努力扩展方面表现不佳。Mythos/Fable 的后训练方法首次将测试时计算应用于解决超长任务,相当于数十小时人类工作、每任务数百美元。该功能现已在 Cognition 和 Devin 中可用,仅需 1.4x ACUs。AI产品编程基准MythosFrontierCodeOpus 4.8GPT 5.5Devin8 个信源在谈推荐理由:Mythos 的 FrontierCode 基准揭示了当前顶级模型在长任务上的扩展瓶颈,做 AI 编程评估或开发长流程自动化的团队值得关注,可以直接在 Devin 中体验。原文
18:45marktechpost@Michal Sutter2026年软件开发已发生根本性变化,工程师不再手动编写大部分代码,而是通过描述意图让AI代理完成工作。现代AI编程工具能规划任务、跨文件编辑、运行测试并自动提交PR,许多项目在有限监督下即可上线。本文对比了Atoms、Devin、Windsurf、Cursor、Warp等主流AI编程代理和开发平台,指出没有单一工具适合所有场景。开发者可根据项目需求选择最合适的工具,提升开发效率。AI产品AI编程代理开发平台AtomsDevinCursor6 个信源在谈推荐理由:AI编程工具正在重塑开发流程,做软件开发的团队和个人开发者值得了解各平台差异,选对工具能大幅减少重复劳动。原文
11:44Cognition@cognition_labs精选76°Devin 平台现已集成 Claude Fable 5 模型,该模型在 FrontierCode 基准测试中排名第一。FrontierCode 是评估真实工程任务中代码合并性和质量的基准。这一更新意味着开发者可以在 Devin 中使用当前最强的代码生成模型之一,提升自动化编程效率。AI产品DevinClaude Fable 5代码生成基准测试编程助手10 个信源在谈推荐理由:对于使用 Devin 做自动化编程的团队,Fable 5 的集成直接提升了代码质量和合并成功率,值得立即体验。原文
11:40Cognition@cognition_labs83°Cognition 宣布其最强智能体 Devin Ultra 现已集成 Claude Fable 5,专为长周期任务和调试优化。通过调整 harness,Ultra 的成本仅比默认 Devin 智能体高出约 40%。Claude Fable 5 还可在 Devin Desktop 和 Devin CLI 中使用。这为需要复杂自动化流程的开发者提供了更强大的选择。AI产品DevinClaude Fable 5智能体调试编程助手10 个信源在谈推荐理由:做复杂自动化或深度调试的开发者,现在可以用 Devin Ultra 以更可控的成本获得 Claude Fable 5 的能力,值得直接尝试。原文
10:03Scott Wu@ScottWu4676°在 FrontierCode 基准发布仅一天后,Cognition 的 Claude Fable 5 模型即成为新的最高分获得者,尤其在最具挑战性的任务上表现突出。在 FrontierCode Diamond 子集上,Fable 5 得分从 13.4% 跃升至 29.3%,远超 Opus 的 4.8%。该基准专注于真实世界的工程任务,评估代码的可合并性和质量。Fable 5 现已可在 Devin 中使用,为开发者提供更强的编程辅助能力。AI模型Claude Fable 5FrontierCode基准测试编程助手Devin10 个信源在谈推荐理由:Claude Fable 5 在真实工程任务基准上碾压 Opus,做复杂代码合并的开发者可以直接在 Devin 中体验,效率提升立竿见影。原文
06:48Scott Wu@ScottWu46Cognition 公司创始人 Scott Wu 发文批评按 token 用量衡量 AI 生产力的做法,并宣布 Devin 推出 AI 生产力保障计划。该计划基于真实工程师时间估算数据集,衡量每个 Devin 任务对应的有效工程小时数。如果 Devin 交付的工程价值低于客户支付的费用,Cognition 将补足使用额度,最高 1000 万美元。此举旨在推动行业从衡量活动转向衡量产出,让 AI 公司真正为价值负责。AI产品DevinAI 生产力计费模式工程价值Cognition推荐理由:Cognition 把 AI 计费从 token 消耗转向工程价值,做 AI 采购或管理开发团队的决策者值得关注——这可能是行业计费模式的分水岭。原文
03:16Cognition@cognition_labsCognition 宣布为其 AI 编程助手 Devin 推出“AI 生产力保障”计划。如果 Devin 为企业带来的工程价值低于其支付费用,Cognition 将资助企业继续使用,直到达到预期效果,最高补贴 1000 万美元。此举旨在推动 AI 行业从追求 token 数量转向最大化实际产出。该计划直接回应了企业对 AI 投资回报的担忧,可能改变 AI 服务的商业模式。AI产品AI 编程助手Devin生产力保障企业服务Cognition推荐理由:Cognition 用真金白银为 AI 编程效率背书,做技术采购的团队值得关注——这可能是首个把 ROI 写进合同的 AI 产品。原文
08:21Cognition@cognition_labs精选Cognition 宣布 Devin Desktop 现在支持 Agent Communication Protocol(ACP),允许用户将任意第三方智能体接入 Devin 桌面环境。ACP 是一种开放协议,旨在标准化智能体之间的通信与协作。这意味着开发者可以在 Devin 中自由组合不同来源的 AI 代理,扩展自动化工作流。该更新提升了 Devin 作为智能体平台的可扩展性和开放性。AI产品智能体ACP/协议Devin自动化开放平台推荐理由:对于使用 Devin 做自动化开发的团队,ACP 协议让接入自定义智能体变得标准化,不用再受限于单一模型,值得尝试集成。原文
08:20Cognition@cognition_labs精选Harvey 工程团队将其内部背景代理 Spectre 集成到 Devin Desktop 中。现在,Spectre 的组织上下文可以存在于每位工程师的笔记本电脑上,并在他们喜爱的代理之间流动。这一集成使得团队能够更高效地共享和利用组织知识,提升了协作和开发效率。对于使用 Devin 的开发者来说,这是一个重要的功能增强。AI产品DevinSpectre智能体组织上下文Harvey推荐理由:Harvey 团队通过集成 Spectre 解决了组织上下文在代理间流动的痛点,使用 Devin 的开发者可以直接受益,建议关注这一实践。原文
11:52Cognition@cognition_labs88°Cognition 发布了 Devin Desktop,一个统一的桌面界面,允许用户从单一界面管理本地和云端的智能体集群。用户可以在不离开编辑器的情况下完成规划、委托、审查和发布等操作。这标志着 AI 编程助手从单一工具向多智能体协作平台的演进,提升了开发者的工作效率。AI产品智能体编程助手Devin桌面应用多智能体管理推荐理由:Devin Desktop 解决了多智能体管理分散的痛点,做复杂开发流程的团队可以直接用,建议点开看看如何统一调度。原文
08:06Latent.Space@latentspacepodAI 软件工程师公司 Cognition 宣布完成新一轮融资,总额超过 10 亿美元,估值达到 260 亿美元,由 Lux Capital、General Catalyst 和 8VC 领投。自年初以来,其企业使用量增长超过 10 倍,年化收入达到 4.92 亿美元。两年前推出的 AI 软件工程师 Devin 推动了云端智能体从边缘走向主流,成为增长最快的软件开发方式。此次融资表明资本市场对 AI 编程智能体赛道的高度认可。行业CognitionDevinAI 软件工程师融资智能体推荐理由:Cognition 的 Devin 证明了 AI 软件工程师的商业化潜力,做 AI 编程工具或智能体开发的团队值得关注其增长路径和融资信号。原文
05:27Latent.Space@latentspacepod78°Cognition联合创始人兼CPO Walden Yan与Open-Inspect创始人Cole Murray在播客中讨论了工程从本地IDE向云端后台智能体迁移的趋势。Devin在Cognition仓库中的代码提交占比从16%增长到80%,PR数量增长7倍。他们解释了12月模型拐点后规格到PR工作流成为现实的原因,以及测试比计算机使用更难。还探讨了Devin如何分离大脑与机器、MCP在生产智能体集成中的不足,以及PM、支持团队和SRE如何将Slack消息转化为PR。AI产品Devin异步智能体AI编程云端IDEPR工作流2 个信源在谈推荐理由:Devin的7倍PR增长和80% AI提交率证明了异步智能体在工程中的实际价值,做AI编程工具或自动化工作流的开发者值得深入了解其背后的架构思路。原文
10:20Decoder@Matthias BastianCognition,即AI编程智能体Devin的开发商,在不到九个月内完成新一轮融资,估值超过260亿美元,较此前翻倍。本轮融资超过10亿美元,凸显投资者对AI编程智能体的巨大热情,尽管其实际价值仍存争议。Devin能自主编写、调试和部署代码,但业界对其可靠性和实用性看法不一。此次融资表明资本正大量涌入AI编程领域,推动该赛道竞争加剧。行业AI编程智能体DevinCognition融资估值推荐理由:AI编程智能体Devin的估值飙升反映了资本对编程自动化的狂热,做AI开发工具或关注编程效率的团队值得关注这一趋势,思考如何抓住机会。原文
01:55rohanpaul_ai@rohanpaul_ai83°Cognition AI 完成新一轮融资,估值达 260 亿美元,融资额超 10 亿美元。其旗舰产品 Devin 的年化收入从 3700 万美元飙升至 4.92 亿美元,客户包括高盛和梅赛德斯-奔驰,表明 Devin 正从演示阶段进入生产环境。Devin 定位为自主初级工程师,能规划、测试和部署代码,并整合 OpenAI 和 Anthropic 的模型,形成模型无关的智能体层。去年,Cognition 还收购了编程初创公司 Windsurf 的剩余资产。行业智能体编程助手融资DevinCognition AI10 个信源在谈推荐理由:Devin 的收入暴涨证明智能体编程已从概念走向商业验证,做自动化开发工具的团队值得关注其模型无关架构的设计思路。原文
08:00Scott Wu@ScottWu46Cognition 创始人 Scott Wu 发推感谢与 Anthropic 团队的深度合作,并调侃自己中学数学视频被 Claude 记住。他领导的团队基于 Claude 构建了 AI 软件工程师 Devin,目标是让每个工程团队的软件开发速度提升 10 倍。Devin 能自主规划、编写代码、调试并部署,代表了 AI 编程助手从辅助到自主的重大转变。这条推文引发广泛关注,显示 AI 编程工具正加速进入工程团队日常。AI产品AI 编程助手DevinClaudeCognition软件工程10 个信源在谈推荐理由:Devin 基于 Claude 实现了从辅助到自主编程的跨越,做软件工程的团队值得关注——它可能改变你每天写代码的方式。原文
08:00Claude@claudeai72°Cognition 公司 CEO Scott Wu 在推文中介绍了其团队开发的 AI 软件工程师 Devin,该产品基于 Claude 构建。Scott Wu 表示,他们的目标是让每个工程团队的软件开发速度提升 10 倍。Devin 能够自主完成编码、调试和部署等任务,被视为 AI 编程助手领域的重要进展。这条推文引发了广泛关注,获得了超过 1400 个点赞和 130k 次浏览。AI产品AI 编程助手DevinClaudeCognition工程效率推荐理由:如果你在寻找能真正提效的 AI 编程工具,Devin 基于 Claude 的自主编程能力值得关注——它可能改变工程团队的工作方式,建议点开了解具体能力。原文
13:43rohanpaul_ai@rohanpaul_ai72°Cognition CEO Scott Wu 在最新访谈中分享了他从童年数学和编程竞赛起步,最终领导团队开发出AI软件工程师Devin的经历。Devin 被设计为能够处理完整工程工作流,而不仅仅是代码补全。这一背景揭示了Devin在复杂任务推理和规划能力上的独特来源。对于关注AI编程工具和智能体发展的读者,这是理解Devin设计哲学的关键视角。AI产品DevinCognitionAI编程助手智能体创始人访谈推荐理由:想了解AI编程工具Devin背后的创始人思维?Scott Wu的竞赛背景解释了它为何能处理完整工程流,做AI编程的开发者值得一看。原文
13:20Cognition@cognition_labsCognition 推出 Devin Auto-Triage,一个具备长期记忆的 AI 第一响应者,能够自动监控传入的 bug、告警和事件,进行深入调查,并返回上下文、下一步操作或直接生成 PR。该功能旨在减少人工排查时间,提升故障响应效率。对于依赖持续集成和快速迭代的工程团队,这能显著降低运维负担。目前已在 Devin 平台上线,值得关注。AI产品DevinAuto-TriageAI 运维长期记忆事件响应推荐理由:DevOps 和 SRE 团队终于有了能记住上下文、自动调查并提 PR 的 AI 助手,省去手动排查的重复劳动,建议运维和开发负责人立即试用。原文
12:25Cognition@cognition_labs72°Cognition 宣布其 Devin Auto-Triage 工具已被 Modal 等团队用于推理服务的事故排查。该工具能自动监控频道、结合代码库和可观测性栈进行主动调查,无需人工提示即可返回有用分析。Modal 技术成员 Hari Subbaraj 评价其比以往自动排查工具更先进。这标志着 AI 运维自动化从被动响应向主动智能排查的演进。AI产品DevinAuto-Triage事故排查推理服务运维自动化推荐理由:做推理服务运维的团队终于有了能主动干活的事故排查工具——Devin Auto-Triage 自动监控、分析代码和指标,省去手动提示的麻烦,建议有运维痛点的团队试试。原文
03:05Cognition@cognition_labs精选Devin新增Android开发支持。它可利用AVD模拟器复现问题、检查应用行为、进行修改并验证。开发者在把工作交回审查前可通过模拟器完成完整调试循环。该功能已上线,可在docs.devin.ai查看。AI产品DevinAndroidAVD编程助手推荐理由:用Devin调试Android app原文
03:05Cognition@cognition_labs精选Devin 已集成 Android Virtual Device (AVD) 支持,使其能够在机器上自主构建、启动和测试 Android 应用。该更新扩展了 Devin 的自动化能力,允许开发者通过指令让 AI 处理完整的 Android 应用开发流程。目前 Devin 基于此功能实现从代码构建到模拟器运行的端到端操作。AI产品DevinCognitionAndroid编程助手推荐理由:AI 编程手 Devin 能跑安卓应用了原文