cognition·general

Cognition

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
60
§ 01综述

近期,AI 编程公司 Cognition 动作频频,尤其在代码评估标准上推出新基准 FrontierCode,引发对 AI 代码质量真实水平的讨论。同时,其产品 Devin 在商业模式和应用形态上也有重要更新。

主要进展

  • FrontierCode 基准发布,揭示 AI 代码可合并率极低
  • Cognition 推出了名为 FrontierCode 的代码基准测试,将评估标准从“代码能否运行”提升到“代码是否可合并入生产库”。结果显示,当前最强的模型 Claude Opus 4.8 也仅达到 13.4% 的通过率,远低于此前多数编码基准的高分。这一结果表明,尽管 AI 代码生成能力提升迅速,但距离真正可用的生产级别代码仍有巨大差距。(Claude危险模型公开、Cognition推出FrontierCode基准FrontierCode 基准测试:Claude Opus 4.8 仅 13.4%,AI 代码离可合并还很远METR 编码基准饱和?Cognition 发布 FrontierCode 新评测,Claude Opus 4.8 仅 13.4%
  • 推出 AI 生产力保障,按工程价值计费
  • Cognition 为 Devin 引入了“生产力保障”(Productivity Guarantee)计划,承诺按工程价值计费,如果 Devin 未能达到预期产出,将补偿额度。这被视为从工具订阅模式向结果导向付费的转型尝试,旨在增强企业客户对 AI 代码交付质量的信任。(Devin 推出 AI 生产力保障:按工程价值计费,不达标补额度Cognition 推出 AI 生产力保障:Devin 不达标就补钱
  • Devin Desktop 发布,支持 ACP 协议
  • Cognition 发布了 Devin Desktop 应用,支持 ACP(Agent Communication Protocol)协议,可统一管理本地与云端的智能体。该应用允许用户将 Devin 接入其他智能体生态,扩展了其作为开发助手的集成能力。(Devin Desktop 支持 ACP 协议,接入任意智能体Devin Desktop 发布:统一管理本地与云端智能体
  • 融资估值飙升,企业使用量增长 10 倍
  • 据 Latent.Space 报道,Cognition 获得了 10 亿美元融资,估值达到 260 亿美元,同时 Devin 的企业使用量增长了 10 倍。此外,Devin 提交的 PR(Pull Request)数量增长 7 倍,其中 80% 的代码由 AI 提交,标志着异步智能体开发模式正在快速渗透。(Cognition 获 10 亿美元融资,估值 260 亿,Devin 企业使用量增长 10 倍异步智能体时代:Devin PR增长7倍,80%代码由AI提交

    当前焦点与未来观察

    当前,Cognition 的 FrontierCode 基准引发行业反思:现有编码基准是否已饱和?AI 代码的真实“可合并水平”究竟如何?未来需要关注:第一,FrontierCode 能否成为新的行业标准,推动模型针对性改进;第二,Devin 的生产力保障模式是否可持续,以及企业用户对“结果付费”的接受度;第三,随着 Devin 使用量暴增,异步代码提交的管理与质量控制将如何演变。
    § 02相关报道10 条在档
    1. 01
      Devin CLI 开源 /handoff 功能:关笔记本,云端代理继续工作
      Cognition
    2. 02
      推理时计算黑客马拉松报名倒计时2天,Cognition等主办
      Cognition
    3. 03
      Claude危险模型公开、Cognition推出FrontierCode基准
      rohanpaul_ai
    4. 04
      Claude Fable 5 登顶 FrontierCode 基准,一天内刷新纪录
      Scott Wu
    5. 05
      Devin Ultra 集成 Claude Fable 5,长任务调试更强
      Cognition
    6. 06
      FrontierCode 基准测试:Claude Opus 4.8 仅 13.4%,AI 代码离可合并还很远
      rohanpaul_ai
    7. 07
      Cognition 推出 FrontierCode:将 Coding 评估标准从可用提升到可合并,Claude Opus 4.8 领先
      shao__meng
    8. 08
      METR 编码基准饱和?Cognition 发布 FrontierCode 新评测,Claude Opus 4.8 仅 13.4%
      Gary Marcus
    9. 09
      Devin 推出 AI 生产力保障:按工程价值计费,不达标补额度
      Scott Wu
    10. 10
      Cognition 推出 AI 生产力保障:Devin 不达标就补钱
      Cognition
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/Cognition