SIMMER基准：评估LLM规划中的潜在失败

精选理由

新基准暴露LLM规划隐藏盲区

AI 摘要

SIMMER是一个基于人类策划的厨房领域符号世界模型的新基准，包含77个动作、262个独特物体和约46,800种语义真实的交互。实验在六个LLM上进行，前沿模型错误率最高仅17%，最多56%的计划包含潜在失败，其中多数导致不可逆后果。通过反事实预测模拟，潜在失败可减少72%，不可逆情况减少75%。该基准揭示了现有评估忽略的关键失败类型。

AI 翻译 · 中文

arXiv cs.AILarge language models (LLMs) are increasingly deployed as planners for autonomous agents in household environments. While existing benchmarks evaluate whether LLM-generated plans execute successfully, they overlook a cri…

阅读原文