论文基准:Codex > Claude > Kimi(物理世界)

@jxnlco That’s right! In our paper’s results, Codex > Claude > Kimi! A benchmark that can’t be...

精选理由

英伟达科学家发推说他们论文里 Codex 把 Claude 和 Kimi 都干掉了,还是物理世界实测,看看你家模型排第几。

AI 摘要

在一项无法在物理世界中被攻破的基准测试中,OpenAI Codex 的表现超越 Anthropic Claude,而 Claude 又优于月之暗面 Kimi。该基准由 @DrJimFan 参与的论文提出,专注于物理世界的真实场景评估。结果显示了各模型在复杂物理任务上的相对排名。

AI 翻译 · 中文

在一项无法在物理世界中被攻破的基准测试中,OpenAI Codex 的表现超越 Anthropic Claude,而 Claude 又优于月之暗面 Kimi。该基准由 @DrJimFan 参与的论文提出,专注于物理世界的真实场景评估。结果显示了各模型在复杂物理任务上的相对排名。

Jim Fan@jxnlco That’s right! In our paper’s results, Codex > Claude > Kimi! A benchmark that can’t be hacked in the physical world ;) 💬 4 🔄 2 ❤️ 39 👀 3205 📊 8 ⚡ Powered by xgo.ing