论文基准：Codex > Claude > Kimi（物理世界）

精选理由

英伟达科学家发推说他们论文里 Codex 把 Claude 和 Kimi 都干掉了，还是物理世界实测，看看你家模型排第几。

AI 摘要

在一项无法在物理世界中被攻破的基准测试中，OpenAI Codex 的表现超越 Anthropic Claude，而 Claude 又优于月之暗面 Kimi。该基准由 @DrJimFan 参与的论文提出，专注于物理世界的真实场景评估。结果显示了各模型在复杂物理任务上的相对排名。

AI 翻译 · 中文

Jim Fan@jxnlco That’s right! In our paper’s results, Codex > Claude > Kimi! A benchmark that can’t be hacked in the physical world ;) 💬 4 🔄 2 ❤️ 39 👀 3205 📊 8 ⚡ Powered by xgo.ing

宝玉06-16 23:30原文
Gary Marcus06-16 01:08原文
Decoder06-16 11:28原文
kimmonismus06-16 12:41原文
Lenny Rachitsky06-17 16:15原文
berryxia06-18 03:41原文
@koltregaskes06-18 18:17原文
marktechpost06-15 06:10原文
AI Will06-15 09:11原文
arXiv: Anthropic06-15 10:37原文

查看原推