仅三个AI模型在500天初创生存测试中盈利

精选理由

普林斯顿大学用500天模拟测试AI经营公司，结果大部分亏钱，一个非AI规则反而更稳。看看哪三个模型赚钱了。

AI 摘要

普林斯顿大学研究团队创建了CEO-Bench基准测试，要求AI代理在模拟环境中经营一家软件公司500天。测试结果显示，大多数参与模型最终破产，仅三个AI模型的资本高于初始资金。令人意外的是，一个简单的、不依赖AI的规则启发式方法几乎击败了所有AI模型。该测试揭示了当前AI在长期决策与资源管理方面的局限性。

AI 翻译 · 中文

DecoderResearchers at Princeton University built CEO-Bench, a test where AI agents have to run a fictional software company for 500 simulated days. Most current models go broke, and a simple rule-based heuristic with no AI beat…

阅读原文