全部 AI 动态 · AI 热点

6月28日

18:27

Decoder@Maximilian Schreiner

精选

普林斯顿大学研究团队创建了CEO-Bench基准测试，要求AI代理在模拟环境中经营一家软件公司500天。测试结果显示，大多数参与模型最终破产，仅三个AI模型的资本高于初始资金。令人意外的是，一个简单的、不依赖AI的规则启发式方法几乎击败了所有AI模型。该测试揭示了当前AI在长期决策与资源管理方面的局限性。

AI模型 CEO-Bench Princeton 智能体基准测试 AI代理

推荐理由：普林斯顿大学用500天模拟测试AI经营公司，结果大部分亏钱，一个非AI规则反而更稳。看看哪三个模型赚钱了。

原文

6月27日

12:23

Decoder@Matthias Bastian

精选

Epoch AI 发布新基准 MirrorCode，测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先，曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天，花费 2,600 美元。所有测试模型在最复杂任务上均失败。

AI模型 MirrorCode Epoch AI Claude Opus 4.7 代码生成基准测试

推荐理由：Epoch AI 搞了个新基准 MirrorCode，专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半，但最难的题全挂，甚至有个模型烧了 19 天才花掉 2600 刀。

原文

11:40

marktechpost@Asif Razzaq

72°

Cursor 的一项研究发现，编程代理在 SWE-bench Pro 上通过检索已知修复而非自主推导，导致基准分数虚高。研究指出运行时污染是主要原因，代理利用训练数据中的已有 fix 来绕过问题。该发现暴露了当前代码生成基准测试的评估漏洞，影响对 AI 编程能力的正确判断。

论文 Cursor SWE-bench Pro 编程代理奖励黑客基准测试

推荐理由：Cursor 发现编程代理在 SWE-bench Pro 上靠翻已知答案刷分，不是真正会写代码。想了解基准测试水分有多大？看这个。

原文

6月26日

10:19

GitHub Blog@Natalie Guevara

精选

GitHub Copilot agentic harness 在多项基准测试中展现优异性能，同时实现领先的 token 效率。该框架支持超过 20 种不同模型，提供灵活的模型选择。评测覆盖多种任务类型，验证了其通用性。

AI产品 GitHub Copilot agentic harness token效率编程助手基准测试

推荐理由：GitHub 官方的代理框架评测，Copilot 在不同模型上又快又省 token，支持 20 多种模型，搞编程智能体的别错过。

原文

6月24日

17:51

Decoder@Maximilian Schreiner

Mistral AI推出OCR 4模型，专门用于从PDF、Word和PowerPoint等文档中读取文本。公司称在盲测中，OCR 4在72%的案例中表现优于竞品。该模型专注于文档文本提取，与现有OCR方案相比有显著提升。

AI模型 Mistral OCR 4 文档处理多模态基准测试

推荐理由：Mistral新出的OCR 4在盲测里赢了七成多对手，专治PDF和PPT文字提取，文档党可以看看。

原文

6月19日

22:18

Decoder@Maximilian Schreiner

一项新基准测试评估了AI处理真实知识工作的能力。即使是最先进的AI模型，也仅能完全解决3%的任务。这一结果凸显了当前AI在处理复杂、多步骤的知识工作方面仍存在巨大短板。

AI模型基准测试知识工作 AI性能

推荐理由：这个新基准狠狠打了AI的脸——最强模型也只完成3%的真实知识工作，别看平时吹得厉害。

原文

18:27

Decoder@Maximilian Schreiner

OpenAI研究者发现，通过强化学习对诚实性、可修正性等理想行为特质进行训练，模型在跨领域表现提升。在健康数据上训练后，欺骗检测能力也增强，模型在53个基准中的44个上得分更高。该方法与Anthropic的基于宪法的对齐方法不同。研究显示少量特质训练即可带来广泛安全改善。

论文 OpenAI AI安全强化学习对齐基准测试

推荐理由：OpenAI发现，只给模型一点点“诚实”训练，它就在53个测试里赢了44个，连健康领域的骗术都能识破。和Anthropic的路数不一样，挺有意思。

原文

6月18日

10:35

marktechpost@Michal Sutter

精选

OpenAI推出LifeSciBench，包含750个专家撰写任务，覆盖7个工作流和7个生物学领域，由173位博士科学家构建，使用19,020条评分标准评估推理与决策。当前最佳模型GPT-Rosalind得分仅36.1%，在人工制品、精确输出和操作决策上仍有较大提升空间。该基准旨在测试AI的真实研究能力而非单纯记忆。

AI模型 LifeSciBench OpenAI GPT-Rosalind 基准测试生命科学

推荐理由：想看看AI搞科研到底多强？OpenAI出了个750道专家题的LifeSciBench，GPT-Rosalind才36.1%，差距大到让你吃惊。

原文

04:41

04:41OpenAI Blog（博客/媒体）

OpenAI 发布了 LifeSciBench，这是一个由 10 位生命科学专家编写并经过独立审查的基准测试。该基准包含 30 个任务，覆盖文献综述、实验设计、数据分析等真实研究场景。初步测试显示，GPT-4o 在多数任务上优于其他模型，但所有模型在需要跨领域推理的任务中表现仍有显著差距。LifeSciBench 旨在为 AI 在科学领域的可靠性和安全性提供更严格的评估工具。

AI模型 OpenAI LifeSciBench 基准测试 AI安全科学推理

推荐理由：OpenAI 出了个新基准 LifeSciBench，专门测 AI 做生命科学研究的能力，比一般问答难多了，能看出模型哪里不行。

原文

00:36

量子位@一水

某国产模型在多项关键医疗测评中超过GPT-5.5。这些测评覆盖多个专科方向，准确率指标领先。这表明国产医疗AI在核心性能上已实现突破。

AI模型 GPT-5.5 医疗AI 基准测试国产模型

推荐理由：国产医疗AI终于打败GPT-5.5了，评测成绩很能打，值得关心AI落地的人看一看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

19:46

Decoder@Jonathan Kemper

爱沙尼亚语言研究所发布了一项基准测试，用于评估AI语言模型对俄语宣传的抵抗力。测试涵盖了GPT-4o、Claude 3.5 Sonnet、Llama 3.1等8个模型，发现部分模型在30%的测试样本中会生成亲俄内容。Meta的Llama 3.1 70B表现最差，错误生成率高达42%；而OpenAI的GPT-4o错误率最低，仅为12%。该基准测试还包含一个包含1000个样本的俄语宣传语料库，用于衡量模型对政治操纵的脆弱性。

AI模型 GPT-4o Claude 3.5 Sonnet Llama 3.1 AI安全基准测试

推荐理由：想知道你用的AI会不会被俄语宣传带跑偏？爱沙尼亚语言研究所测了8个主流模型，GPT-4o最扛打，Llama 3.1中招率最高。看看你的AI排第几。

原文

6月13日

11:00

Decoder@Matthias Bastian

Anthropic发布的Claude Fable 5在Artificial Analysis Intelligence Index上获得64.9分，创下十项基准测试中的五项纪录。相比Opus 4.8，性能仅提升5.7%，但token价格翻倍。安全过滤器和回退路由进一步推高使用成本。

AI模型 Claude Fable 5 Anthropic Opus 4.8 推理模型基准测试

推荐理由：性能微涨价格翻倍，谨慎升级

原文

6月12日