精选理由
新基准暴露LLM规划隐藏盲区
SIMMER是一个基于人类策划的厨房领域符号世界模型的新基准,包含77个动作、262个独特物体和约46,800种语义真实的交互。实验在六个LLM上进行,前沿模型错误率最高仅17%,最多56%的计划包含潜在失败,其中多数导致不可逆后果。通过反事实预测模拟,潜在失败可减少72%,不可逆情况减少75%。该基准揭示了现有评估忽略的关键失败类型。
AI 翻译 · 中文
SIMMER是一个基于人类策划的厨房领域符号世界模型的新基准,包含77个动作、262个独特物体和约46,800种语义真实的交互。实验在六个LLM上进行,前沿模型错误率最高仅17%,最多56%的计划包含潜在失败,其中多数导致不可逆后果。通过反事实预测模拟,潜在失败可减少72%,不可逆情况减少75%。该基准揭示了现有评估忽略的关键失败类型。
Large language models (LLMs) are increasingly deployed as planners for autonomous agents in household environments. While existing benchmarks evaluate whether LLM-generated plans execute successfully, they overlook a cri…