datacurve·general

Datacurve

别名
首次出现
2026-05-28
最近出现
2026-06-12
累计提及
5
§ 01综述

Datacurve 是一家专注于 AI 评估的初创公司,近期因发布新的编程基准测试 DeepSWE 而受到关注。DeepSWE 被设计为比现有的 SWE-Bench Pro 更难、更贴近真实世界开发场景,旨在更准确地衡量 AI 编程智能体的实际能力。

    主要进展包括:
  • Datacurve 正式发布 DeepSWE 基准测试,该测试包含更复杂的编程任务,模拟真实开发流程中的问题解决步骤,旨在减少数据污染并提高评估的信度与效度。(Datacurve 发布 DeepSWE:更难、更真实的编程基准测试)
  • 在 Artificial Analysis 更新的编程智能体排行中,DeepSWE 取代了 SWE-Bench Pro 成为新的评估标准,而 Anthropic 的 Claude Fable 5(推测为 Claude Opus 4.8 变体)在该排行中登顶,显示出较强的编程能力。(Artificial Analysis 更新编程智能体排行:...)
  • 与此同时,Anthropic 发布了 Claude Opus 4.8,公司估值达到 9650 亿美元,表明 AI 模型在编程等复杂任务上的竞争持续升温。(Anthropic 发布 Claude Opus 4.8...)

当前焦点在于 Datacurve 的 DeepSWE 能否成为行业认可的编程能力标尺,以及它如何影响 AI 模型的评估与开发方向。未来观察点:DeepSWE 是否会被更多机构采用,以及它能否有效甄别模型在真实软件工程任务中的表现差异。

§ 02相关报道03 条在档
  1. 01
    Artificial Analysis 更新编程智能体排行:DeepSWE 取代 SWE-Bench Pro,Claude Fable 5 登顶
    Artificial Analysis
  2. 02
    Anthropic 发布 Claude Opus 4.8,估值达 9650 亿美元
    rohanpaul_ai
  3. 03
    Datacurve 发布 DeepSWE:更难、更真实的编程基准测试
    rohanpaul_ai
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/Datacurve