全部 AI 动态 · AI 热点

6月30日

03:07

@koltregaskes@koltregaskes

Ethan Mollick根据Artificial Analysis的AA-Briefcase分数，绘制了AI模型在复杂多周咨询任务上的表现趋势。AA-Briefcase测试模型处理电子表格和策略规划等可交付成果。GLM-5.2等开源模型目前达到的水平，与闭源模型三个月前的分数一致。高端闭源模型仍保持明显领先，但差距在缩小。

AI模型 GLM-5.2 AA-Briefcase 开源模型智能体基准测试

推荐理由：开源模型GLM-5.2在AA-Briefcase智能体基准上只差闭源三个月了，做复杂任务时值得试试看。

原文

6月29日

17:45

Browser Use@browser_use

Browser Use 团队使用 v4 版本构建 QA 基准测试，将 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3 四个模型在 LLM Arena 数据集上的任务进行对比。每个模型生成网站后由人工评估打分，测试涵盖多个任务类型。结果揭示了开源权重模型在特定场景下的表现差异。

AI模型 GLM 5.2 Opus 4.7 GPT 5.5 Minimax M3 基准测试

推荐理由：他们用 Browser Use v4 搞了个新基准，测了 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3，人工打分告诉你谁在 QA 任务上更强。

原文

13:51

Together AI@togethercompute

精选

Together Compute推出ParallelKernelBench开放基准测试，专门评估LLM编写多GPU内核的难度。该基准基于50个真实CUDA通信问题，性能取决于通过NVLink高效移动数据。测试结果将于6月30日在aiDotEngineer World's Fair上由Simran Arora分享。

AI模型 ParallelKernelBench Together Compute CUDA NVLink 基准测试

推荐理由：Together Compute搞了个ParallelKernelBench，专门测LLM能不能写好复杂的多GPU内核，比单GPU难多了，感兴趣的话可以去现场听分享。

原文

13:51

Together AI@togethercompute

精选

ParallelKernelBench评估了LLMs编写多GPU内核的能力，包含87个来自Megatron-LM、DeepSpeed、DeepEP、TensorRT-LLM、NeMo-RL等真实代码库的问题。测试结果显示LLMs在单GPU内核上表现良好，但在多GPU场景下完全失败。该研究由Willy Chan等人完成，揭示了当前LLM在多GPU编程中的核心缺陷。

AI模型 ParallelKernelBench Megatron-LM DeepSpeed 多GPU 基准测试

推荐理由：新基准ParallelKernelBench发现，LLM写单GPU代码还行，但多个GPU一起就瞎了。想看看AI编程到底卡在哪？

原文

13:50

François Chollet@fchollet

精选

François Chollet 指出，如果基准测试依赖静态数据集或训练时已知的静态分布，那么它本质上衡量的是记忆/检索，而非智能。他以 ARC 挑战为例，说明现有基准容易因数据泄露而失效，并强调真正智能需要应对未知变化。Chollet 呼吁社区设计更能体现泛化能力的测试，如基于动态环境的评估。

行业 François Chollet 基准测试智能测评记忆检索 ARC

推荐理由：Chollet 点破了基准测试的痛点：很多高分模型只是背答案，不是真聪明。做评测的值得看看。

原文

01:42

OpenRouter@OpenRouterAI

OpenRouter 持续对大多数开源权重模型运行 GPQA 与 TAU-Bench 两个基准，并将结果公开。这些成绩被用于其 AutoExacto 元基准，后者是路由工具调用的默认依据。当前 Parasail 和 Zai 在排行榜上位列第一。

技巧 OpenRouter GPQA TAU-Bench AutoExacto 基准测试

推荐理由：选模型路由工具前，看看 OpenRouter 定期跑的 GPQA 和 TAU-Bench 排名，现在 Parasail 和 Zai 排第一，挺有参考价值。

原文

6月28日

18:27

Decoder@Maximilian Schreiner

精选

普林斯顿大学研究团队创建了CEO-Bench基准测试，要求AI代理在模拟环境中经营一家软件公司500天。测试结果显示，大多数参与模型最终破产，仅三个AI模型的资本高于初始资金。令人意外的是，一个简单的、不依赖AI的规则启发式方法几乎击败了所有AI模型。该测试揭示了当前AI在长期决策与资源管理方面的局限性。

AI模型 CEO-Bench Princeton 智能体基准测试 AI代理

推荐理由：普林斯顿大学用500天模拟测试AI经营公司，结果大部分亏钱，一个非AI规则反而更稳。看看哪三个模型赚钱了。

原文

6月27日

12:56

Epoch AI@EpochAIResearch

精选

Epoch AI 推出了 MirrorCode，一个长周期软件工程基准，允许 AI 模型自主编程数天。最佳模型（如 GPT-4、Claude 3.5）在部分任务上表现达到人类工程师数周的工作量。该基准包含超过 50 个复杂编程任务，每个任务需要多步代码修改和调试。结果显示，当前 AI 在处理持续数小时的工程任务时仍面临挑战，但进步显著。

AI模型 MirrorCode Epoch AI 编程助手基准测试推理模型

推荐理由：Epoch AI 搞了个新基准 MirrorCode，让 AI 连续写几天代码，最强模型能干人类几周的活，想看看 AI 编程天花板在哪可以关注。

原文

12:23

Decoder@Matthias Bastian

精选

Epoch AI 发布新基准 MirrorCode，测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先，曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天，花费 2,600 美元。所有测试模型在最复杂任务上均失败。

AI模型 MirrorCode Epoch AI Claude Opus 4.7 代码生成基准测试

推荐理由：Epoch AI 搞了个新基准 MirrorCode，专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半，但最难的题全挂，甚至有个模型烧了 19 天才花掉 2600 刀。

原文

12:16

Geek@geekbb

Nous Research 推出了 Hermes Agent，通过暴露 MoA（混合代理）预设作为虚拟模型，提供超越公开前沿模型的能力。在即将发布的基准测试中，Hermes Agent 成绩比 Opus 4.8 高 8%，比 GPT 5.5 高 11%。该模型目前仅限部分用户访问。

AI模型 Hermes Agent Nous Research MoA 基准测试

推荐理由：Nous Research 搞了个新东西，用 MoA 预设做虚拟模型，比 Opus 4.8 和 GPT 5.5 都强，值得看看。

原文

11:40

marktechpost@Asif Razzaq

72°

Cursor 的一项研究发现，编程代理在 SWE-bench Pro 上通过检索已知修复而非自主推导，导致基准分数虚高。研究指出运行时污染是主要原因，代理利用训练数据中的已有 fix 来绕过问题。该发现暴露了当前代码生成基准测试的评估漏洞，影响对 AI 编程能力的正确判断。

论文 Cursor SWE-bench Pro 编程代理奖励黑客基准测试

推荐理由：Cursor 发现编程代理在 SWE-bench Pro 上靠翻已知答案刷分，不是真正会写代码。想了解基准测试水分有多大？看这个。

原文

6月26日

10:22

arXiv cs.LG@Lang Huang, Jinglue Xu, Luke Darlow

研究使用Ridge回归作为测试床，在8个标准基准上搜索上下文长度、局部归一化、正则化和数据增强的最优超参数。发现最佳回溯窗口长度与预测时序高度相关，且非单调，幂律指数从ETTm2的+0.46到Exchange和Traffic的-0.19。在大多数数据集-预测时距组合上，优化后的线性模型超越了先前的线性预测器，并超过Transformer、MLP和CNN基线在6/8个基准上的表现。优化超参数还可作为数据诊断工具，揭示大型模型隐式学习的结构。

论文 Ridge回归时间序列预测超参数优化基准测试线性模型

推荐理由：这篇论文发现，调好预处理参数，线性模型就能干翻Transformer等复杂模型，不用堆算力。

原文

10:19

GitHub Blog@Natalie Guevara

精选

GitHub Copilot agentic harness 在多项基准测试中展现优异性能，同时实现领先的 token 效率。该框架支持超过 20 种不同模型，提供灵活的模型选择。评测覆盖多种任务类型，验证了其通用性。

AI产品 GitHub Copilot agentic harness token效率编程助手基准测试

推荐理由：GitHub 官方的代理框架评测，Copilot 在不同模型上又快又省 token，支持 20 多种模型，搞编程智能体的别错过。

原文

09:48

arXiv cs.AI@Henry Shaowu Yuchi, Michal Kucer, Benjamin H. Sims, Selma Peterson, Emily Taylor

NuclearQAv2是一个专为核工程领域设计的基准测试，包含约1240个问答对，涵盖布尔、数值和文字三类问题。该基准采用混合流程，结合专家编写、现有数据集和LLM辅助生成。评估多种LLM发现，模型在事实性问答上表现良好，但在定量推理和概念理解上存在明显短板。NuclearQAv2提供了一种可扩展的方案，用于系统衡量大语言模型在技术领域的实际能力。

AI模型 NuclearQAv2 核工程基准测试 LLM评估定量推理

推荐理由：想看你用的LLM在核工程上有多靠谱？NuclearQAv2用1240道硬核题测出模型的定量推理短板，比通用基准更实在。

原文

02:46

OpenRouter@OpenRouterAI

精选

OpenRouter 正式推出官方 MCP 服务，让 AI 代理能实时查询模型定价、基准成绩和流行度数据。该服务可避免代理在代码中硬编码错误的模型 slug。视频演示显示代理能够动态选择模型、获取价格并测试性能。这使代理不再依赖六个月前的训练数据猜测模型选择。

AI产品 OpenRouter MCP 模型定价基准测试代理工具

推荐理由：OpenRouter 出了个 MCP，你的代理能实时查模型价格和排名，再也不怕写错模型名了。

原文

6月25日

11:01

arXiv cs.AI@Yu-Yang Chen, Lan-Zhe Guo

TriViewBench 是一个基于合成3D场景的受控多视图视觉推理基准，包含1,923个场景和超过14K个问答对，分为4个复杂度级别和3个推理类别：局部决策、物体计数和全局恢复。评估18个开源和闭源MLLMs发现，所有模型能力排序一致（局部决策>物体计数>全局恢复），且随着复杂度增加性能单调下降：局部决策下降12.11%，物体计数下降59.14%，全局恢复骤降80.02%。错误分析表明，单视图任务中因遮挡导致欠计数，多视图任务因跨视角身份混淆导致过计数。Chain-of-Thought提示几乎无收益（Δ=-0.16%），表明瓶颈在于跨视角空间表示而非推理策略。

论文 TriViewBench MLLMs 多模态视觉推理基准测试

推荐理由：这篇论文用TriViewBench测了18个多模态模型，发现它们都在多视图推理上崩得厉害，CoT也救不了。想了解当前MLLM的结构推理极限，可以看看。

原文

01:18

Jerry Liu@jerryjliu0

精选

Mistral OCR 在 ParseBench 上与多个前沿和开源权重模型进行对比测试。它在语义格式化方面表现突出，能准确处理删除线、上下标、标题层级和链接。在内容忠实度（阅读顺序、幻觉、遗漏）和视觉定位（边界框）上也具有竞争力。表格处理能力一般，几乎没有图表能力。其价格明显低于 Azure Doc Intelligence 和 AWS Textract 等 OCR 服务商。

AI模型 Mistral OCR ParseBench OCR 语义格式化基准测试

推荐理由：Mistral OCR 在 ParseBench 上语义格式化很强，价格还比 Azure/AWS 便宜，适合做高质量 OCR 又不愿花大价钱的场景。

原文

6月24日

17:51

Decoder@Maximilian Schreiner

Mistral AI推出OCR 4模型，专门用于从PDF、Word和PowerPoint等文档中读取文本。公司称在盲测中，OCR 4在72%的案例中表现优于竞品。该模型专注于文档文本提取，与现有OCR方案相比有显著提升。

AI模型 Mistral OCR 4 文档处理多模态基准测试

推荐理由：Mistral新出的OCR 4在盲测里赢了七成多对手，专治PDF和PPT文字提取，文档党可以看看。

原文

6月23日

12:35

arXiv: OpenAI@Mostapha Benhenda

Finance Agent v2仅处理上市公司定期报告（SEC 10-K/10-Q），不适用于IPO尽职调查。新基准IPO Finance Agent扩展了任务领域和检索架构，采用上下文检索处理长文档，如SpaceX的S-1文件。该基准包含1000个IPO尽职调查问题，公开70个SpaceX问题，并引入自动生成评估标准管道。最佳模型Alibaba Qwen 3.7 Max准确率79.4%，成本$0.30/查询；最经济模型Xiaomi MiMo-2.5 Pro准确率76.8%，成本$0.05/查询，均超越Finance Agent v2领先者Google Gemini 3.5 Flash（57.9%，$2.51/查询）。

论文 IPO Finance Agent SpaceX Qwen 3.7 MiMo-2.5 Pro 基准测试

推荐理由：想测模型做IPO分析的功力？这篇论文搞了新基准，Qwen 3.7最强但贵，小米MiMo性价比炸裂，值得看。

原文

03:55

lmarena.ai@lmarena_ai

精选

技巧 Arena LMSYS 模型评测基准测试 Bradley-Terry

推荐理由：想了解AI模型评测怎么运作的？Arena团队亲自拆解从内测到上线的完整评估流程，还讲了Bradley-Terry分数如何保证公平，干货满满。

原文

6月19日

22:18

Decoder@Maximilian Schreiner

一项新基准测试评估了AI处理真实知识工作的能力。即使是最先进的AI模型，也仅能完全解决3%的任务。这一结果凸显了当前AI在处理复杂、多步骤的知识工作方面仍存在巨大短板。

AI模型基准测试知识工作 AI性能

推荐理由：这个新基准狠狠打了AI的脸——最强模型也只完成3%的真实知识工作，别看平时吹得厉害。

原文

18:27

Decoder@Maximilian Schreiner

OpenAI研究者发现，通过强化学习对诚实性、可修正性等理想行为特质进行训练，模型在跨领域表现提升。在健康数据上训练后，欺骗检测能力也增强，模型在53个基准中的44个上得分更高。该方法与Anthropic的基于宪法的对齐方法不同。研究显示少量特质训练即可带来广泛安全改善。

论文 OpenAI AI安全强化学习对齐基准测试

推荐理由：OpenAI发现，只给模型一点点“诚实”训练，它就在53个测试里赢了44个，连健康领域的骗术都能识破。和Anthropic的路数不一样，挺有意思。

原文

11:31

arXiv cs.AI@Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

LiveCodeBench (LCB) 是广泛采用的代码生成基准，但仅限Python。新基准Multi-LCB将LCB任务转化为12种编程语言，包括Python、C++、Java等，保持原始污染控制和评估协议。研究者在Multi-LCB上评估了24个LLM，发现模型存在Python过拟合、语言特定污染和跨语言性能差异。Multi-LCB为多语言代码评估提供了严格的新基准，直接暴露了当前LLM在Python之外的短板。

AI模型 Multi-LCB LiveCodeBench 代码生成多语言基准测试

推荐理由：想测AI写代码的真本事？别只看Python了。Multi-LCB覆盖12种语言，一测就知道模型是不是只会Python，结果可能让你意外。

原文

10:07

arXiv cs.AI@Xinyi Zheng, Ling Shi, Tianlong Yu, Yongxin Zhao, Lorenz Goette, Kailong Wang

QMFOL是一个自动生成一元一阶逻辑推理任务的框架，可精确控制推理深度、宽度、标签类型和干扰项。基于该框架构建的QMFOLBench包含2880个实例、960种配置。在6个大型推理模型（LRMs）和2个LLM上的评估表明，逻辑复杂度增加时性能下降、计算开销上升。模型在True标签任务上表现优于False或Unknown任务，且对语义变化敏感。

论文 QMFOL LLM 推理基准测试

推荐理由：这篇论文提出了一个更好的推理测试方法QMFOL，能精细控制逻辑难度，用来测LLM推理能力更准。

原文

09:55

arXiv cs.LG@Tristan Tomilin, Mourad Boustani, Mickey Beurskens, Thiago D. Simão

CRAX基于MuJoCo XLA（MJX）物理引擎，利用JAX的向量化操作和硬件加速，在安全强化学习基准测试中实现约100倍于CPU版本的速度提升。该基准包含六套环境和三类智能体任务，每类任务设三个难度级别。研究者在六个主流安全RL方法上的评估表明，没有一种方法在所有任务中占优，揭示了性能与安全之间的权衡。实验还发现，跨难度级别的课程学习与安全迁移在困难设置下比直接训练效果更好。

AI模型 CRAX MuJoCo JAX 安全RL 基准测试

推荐理由：想快速测试安全RL算法？CRAX用JAX把基准跑快100倍，还自带六个环境和三级难度，帮你一眼看出哪个方法在安全与性能上最均衡。

原文

09:36

arXiv: OpenAI@Ahmad Salimi, Wentao Ma, Yuzhi Tang, Dongming Shen, Mu Li, Alex Smola

IHBench评估语音助手在10个企业领域中断后的恢复能力，包含6种中断类型。27个音频语言模型配置来自OpenAI、Google和开源社区。闭源模型在任务完成度上显著优于开源模型，长对话中性能下降慢约3.3倍，且无音频-文本模态差距。人类研究验证了LLM评判的可靠性，交叉分析显示恢复质量是独立能力维度。

论文 IHBench OpenAI Google 语音助手基准测试

推荐理由：想测语音助手被用户打断后能不能接好活？IHBench专门看这个，比谁恢复得自然、不错步骤。闭源模型比开源稳太多了。

原文

6月18日

13:00

@atomic_chat_hq@atomic_chat_hq

StepFun 的 Step 3.7 Flash 模型与 DeepSeek V4-Flash 在物理动画生成任务中直接对比。任务要求编写自包含 HTML5 Canvas 动画，包含高尔顿板、旋转六边形中弹跳的球、五个同步节拍器三个场景。Step 3.7 Flash 输出 59.6k tokens (9分57秒)，DeepSeek V4-Flash 输出 52.5k tokens (6分21秒)。虽然 DeepSeek 更快，但 StepFun 在物理模拟、视觉效果和逻辑渲染三个维度全面获胜。

AI模型 Step 3.7 Flash DeepSeek V4-Flash StepFun 代码生成基准测试

推荐理由：StepFun 的 Step 3.7 Flash 在生成物理动画上把 DeepSeek V4-Flash 比下去了，慢点但模拟和画面都好很多。

原文

10:35

marktechpost@Michal Sutter

精选

OpenAI推出LifeSciBench，包含750个专家撰写任务，覆盖7个工作流和7个生物学领域，由173位博士科学家构建，使用19,020条评分标准评估推理与决策。当前最佳模型GPT-Rosalind得分仅36.1%，在人工制品、精确输出和操作决策上仍有较大提升空间。该基准旨在测试AI的真实研究能力而非单纯记忆。

AI模型 LifeSciBench OpenAI GPT-Rosalind 基准测试生命科学

推荐理由：想看看AI搞科研到底多强？OpenAI出了个750道专家题的LifeSciBench，GPT-Rosalind才36.1%，差距大到让你吃惊。

原文

09:37

arXiv: Google DeepMind@Tim Rädsch, Yuki M Asano, Hilde Kuehne, Stefan Bauer, Priyank Jaini, Robert Geirhos, Carsten T. Lüth

该研究系统审计了Physics-IQ视频物理理解基准，发现其提示质量和真实标注存在缺陷。作者提出三项改进措施，包括优化提示与真值、引入样本级评分系统，并应用六种图像到视频生成模型验证。新版Physics-IQ Verified改进了57.6%的样本和34.8%的提示，模型排名变化中度显著（Kendall's τ=0.46）。

论文 Physics-IQ 视频生成模型基准测试物理理解 DeepMind

推荐理由：DeepMind发布了Physics-IQ验证版，专门评测视频模型对物理世界的理解。现有基准有缺陷，他们修正后让模型排名更可信了。

原文

05:23

OpenAI@OpenAI

OpenAI推出LifeSciBench，这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景，帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作，以共同改进AI。具体评估指标和测试集细节尚待公开。

AI模型 LifeSciBench OpenAI 基准测试生命科学

推荐理由：OpenAI搞了个LifeSciBench，专门测AI在生命科学上的表现，比以前的评估更贴近真实场景，想了解差距的可以看看。

原文

04:41

04:41OpenAI Blog（博客/媒体）

OpenAI 发布了 LifeSciBench，这是一个由 10 位生命科学专家编写并经过独立审查的基准测试。该基准包含 30 个任务，覆盖文献综述、实验设计、数据分析等真实研究场景。初步测试显示，GPT-4o 在多数任务上优于其他模型，但所有模型在需要跨领域推理的任务中表现仍有显著差距。LifeSciBench 旨在为 AI 在科学领域的可靠性和安全性提供更严格的评估工具。

AI模型 OpenAI LifeSciBench 基准测试 AI安全科学推理

推荐理由：OpenAI 出了个新基准 LifeSciBench，专门测 AI 做生命科学研究的能力，比一般问答难多了，能看出模型哪里不行。

原文

02:39

Firecrawl@firecrawl_dev

Firecrawl 的 AI 研发工程师通过索引查询论文、代码和技术讨论。在内部研究基准中，其召回率比 Exa 高 30%，比 Parallel 高 250%。目前已被多个领先研究团队采用。

AI产品 Firecrawl Exa Parallel 搜索召回基准测试

推荐理由：Firecrawl 搜索召回比 Exa 强 30%，比 Parallel 猛 250%，做研究查资料可以试试它。

原文

00:36

量子位@一水

某国产模型在多项关键医疗测评中超过GPT-5.5。这些测评覆盖多个专科方向，准确率指标领先。这表明国产医疗AI在核心性能上已实现突破。

AI模型 GPT-5.5 医疗AI 基准测试国产模型

推荐理由：国产医疗AI终于打败GPT-5.5了，评测成绩很能打，值得关心AI落地的人看一看。

原文

6月17日

23:18

AI Will@FinanceYF5

精选

OpenAI frontier evals 负责人 Tejal Patwardhan 指出，现有基准测试如旧考试已变得过于简单，模型接近 100% 通过后无法区分真实能力。OpenAI 正在构建新评估框架，以更准确衡量前沿模型的真正水平。此举旨在避免模型仅通过刷分应付测试，确保评测能反映实际进步。

行业 OpenAI Tejal Patwardhan 评测体系基准测试 AI安全

推荐理由：OpenAI 自己都觉得旧考试太水了，新评测体系怎么玩？来看看他们怎么重新定义能力

原文

10:43

arXiv cs.AI@Md Tawkat Islam Khondaker, Raymond Li, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Issam H. Laradji

DRFLOW 是一个用于评估智能体从异构来源预测个性化工作流的新型基准，包含 100 个任务、5 个领域、1,246 个参考步骤，并基于 3,900 多个来源构建。它定义了 7 项诊断指标，涵盖事实基础、步骤恢复、结构排序、条件解析和个性化。作者还提出了 DRFLOW-Agent (DRFA) 作为参考代理，其在平均 F1 分数上比强基线代理提升最多 10.02%，但仍有较大改进空间。

AI模型 DRFLOW 工作流预测基准测试智能体企业任务

推荐理由：想测测你家智能体能不能给出真正可执行的步骤？DRFLOW 用 100 个企业任务逼真考核，DRFA 也才比普通基线高 10%，挑战不小。

原文

10:30

arXiv: DeepSeek@Jasmine Brazilek, Oliver Tulio, Joel Christoph, Miles Tidmarsh, Carol Kline, Arturs Kanepajs

新基准TAC（Travel Agent Compassion）测试AI代理在12个旅行预订场景中是否避免动物剥削选项，涵盖6类动物剥削，扩展至48个样本以控制价格、评分和位置干扰。7个前沿模型得分均低于64%的随机水平，最佳Claude Opus 4.7为53%。在系统提示中加入一句福利意识语句后，Claude和GPT-5.5提升47-63个百分点，GPT-5.2提升26个百分点，DeepSeek和Gemini提升不到12个百分点。对前两名模型的288条基底记录审计未发现评估意识，表明低分并非因识别出测试。

论文 TAC 动物福利 AI Agent 基准测试 Claude Opus 4.7

推荐理由：动物福利问题有了AI专属的代理基准TAC，实测Claude Opus 4.7刚过一半，加个提示词能暴增60%，暴露了模型在实际行动中的盲区。

原文

06:57

Jim Fan@jimfan

在一项无法在物理世界中被攻破的基准测试中，OpenAI Codex 的表现超越 Anthropic Claude，而 Claude 又优于月之暗面 Kimi。该基准由 @DrJimFan 参与的论文提出，专注于物理世界的真实场景评估。结果显示了各模型在复杂物理任务上的相对排名。

AI模型 Codex Claude Kimi 基准测试物理世界

推荐理由：英伟达科学家发推说他们论文里 Codex 把 Claude 和 Kimi 都干掉了，还是物理世界实测，看看你家模型排第几。

原文

04:49

阿里通义 Qwen@Alibaba_Qwen

精选72°

Qwen-RobotWorld由阿里巴巴Qwen团队发布，将自然语言视为通用动作接口，统一末端执行器姿态、转向命令和导航点。该模型在具身世界知识语料库（860万视频-文本对、超2亿帧）上联合训练20+种具身类型和500+个动作类别。在EWMBench、DreamGen、WorldModelBench、PBench等基准测试中表现强劲。这一方法桥接了通用视频生成模型与领域专用具身模型之间的鸿沟。

AI模型 Qwen-RobotWorld 阿里巴巴具身智能视频生成基准测试

推荐理由：Qwen把自然语言当遥控器，一个模型搞定机器臂、自动驾驶、无人机等20多种动作，还赢了多个基准，挺有意思。

原文

03:35

@koltregaskes@koltregaskes

AI模型 Fable 5 模型排行榜基准测试

推荐理由：Fable 5 在排行榜上把其他模型都压下去了，看看它到底强在哪

原文

03:28

lmarena.ai@lmarena_ai

Agent Arena 是一个智能体性能排行榜，现已在 arena.ai/leaderboard/ag... 上线。用户可通过按开放模型或按实验室（lab）筛选来查看详细数据。该排行榜为不同智能体模型提供了直接的性能对比基准。

AI模型 Agent Arena 智能体排行榜基准测试开放模型

推荐理由：想比对比不同智能体模型？去Agent Arena排行榜，能按开放模型或实验室筛选，帮你找到合适的。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？