11:12arXiv cs.AI@Xiaoxin Lu, Ranran Haoran Zhang, Rui ZhangSIMMER是一个基于人类策划的厨房领域符号世界模型的新基准,包含77个动作、262个独特物体和约46,800种语义真实的交互。实验在六个LLM上进行,前沿模型错误率最高仅17%,最多56%的计划包含潜在失败,其中多数导致不可逆后果。通过反事实预测模拟,潜在失败可减少72%,不可逆情况减少75%。该基准揭示了现有评估忽略的关键失败类型。论文SIMMERLLM世界模型智能体规划推荐理由:新基准暴露LLM规划隐藏盲区原文