SIMMER基准:评估LLM规划中的潜在失败

SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model

精选理由

新基准暴露LLM规划隐藏盲区

AI 摘要

SIMMER是一个基于人类策划的厨房领域符号世界模型的新基准,包含77个动作、262个独特物体和约46,800种语义真实的交互。实验在六个LLM上进行,前沿模型错误率最高仅17%,最多56%的计划包含潜在失败,其中多数导致不可逆后果。通过反事实预测模拟,潜在失败可减少72%,不可逆情况减少75%。该基准揭示了现有评估忽略的关键失败类型。

AI 翻译 · 中文

SIMMER是一个基于人类策划的厨房领域符号世界模型的新基准,包含77个动作、262个独特物体和约46,800种语义真实的交互。实验在六个LLM上进行,前沿模型错误率最高仅17%,最多56%的计划包含潜在失败,其中多数导致不可逆后果。通过反事实预测模拟,潜在失败可减少72%,不可逆情况减少75%。该基准揭示了现有评估忽略的关键失败类型。

arXiv cs.AILarge language models (LLMs) are increasingly deployed as planners for autonomous agents in household environments. While existing benchmarks evaluate whether LLM-generated plans execute successfully, they overlook a cri