精选理由
英伟达科学家发推说他们论文里 Codex 把 Claude 和 Kimi 都干掉了,还是物理世界实测,看看你家模型排第几。
在一项无法在物理世界中被攻破的基准测试中,OpenAI Codex 的表现超越 Anthropic Claude,而 Claude 又优于月之暗面 Kimi。该基准由 @DrJimFan 参与的论文提出,专注于物理世界的真实场景评估。结果显示了各模型在复杂物理任务上的相对排名。
AI 翻译 · 中文
在一项无法在物理世界中被攻破的基准测试中,OpenAI Codex 的表现超越 Anthropic Claude,而 Claude 又优于月之暗面 Kimi。该基准由 @DrJimFan 参与的论文提出,专注于物理世界的真实场景评估。结果显示了各模型在复杂物理任务上的相对排名。
@jxnlco That’s right! In our paper’s results, Codex > Claude > Kimi! A benchmark that can’t be hacked in the physical world ;) 💬 4 🔄 2 ❤️ 39 👀 3205 📊 8 ⚡ Powered by xgo.ing