精选理由
PlanningBench解决了LLM规划能力评估缺乏标准化基准的问题,做AI Agent或任务规划的研究者和开发者可以直接用这个框架测试和训练模型,建议点开看看具体任务和验证方式。
腾讯混元与中国人民大学高瓴人工智能学院合作开源了PlanningBench,这是一个可扩展、可验证的框架,用于评估和训练大语言模型的规划能力。该框架包含30多个真实世界的规划任务,支持自动验证,并提供评估和训练支持。PlanningBench旨在帮助LLM从“说”转向“做”,即提升其实际规划与执行能力。该框架已在arXiv发布论文,代码在GitHub开源,数据集在HuggingFace上可用。
AI 翻译 · 中文
腾讯混元与中国人民大学高瓴人工智能学院合作开源了PlanningBench,这是一个可扩展、可验证的框架,用于评估和训练大语言模型的规划能力。该框架包含30多个真实世界的规划任务,支持自动验证,并提供评估和训练支持。PlanningBench旨在帮助LLM从“说”转向“做”,即提升其实际规划与执行能力。该框架已在arXiv发布论文,代码在GitHub开源,数据集在HuggingFace上可用。
Planning is where LLMs move from “saying” to “doing.” Tencent Hy, in collaboration with the Gaoling School of Artificial Intelligence at Renmin University of China, is excited to open-source PlanningBench - a scalable, v…
- berryxia06-05 12:08原文