20:08berryxia@berryxia76°腾讯混元与人大高瓴人工智能学院联合开源了PlanningBench,一个专门评估和训练LLM真实规划能力的框架。该框架包含30多个来自真实世界的规划任务,覆盖调度、生产、旅行、资源分配和应急响应六大类,每个任务都有清晰的成功标准和全自动验证机制。用户既可以用它测试当前最强模型的规划能力,也可以直接用于微调,让模型从“会说”进化到“会干”。PlanningBench揭示了规划能力是智能体从玩具走向生产力的关键分水岭,腾讯已将论文、代码和数据集全部开源。AI模型规划能力PlanningBench腾讯混元智能体开源/仓库1 个信源在谈推荐理由:PlanningBench把规划能力从黑盒拉到公开赛道,做智能体开发的团队可以直接用它测模型短板、微调训练,让AI从“会聊天”真正进化到“会干活”。原文
17:03Hunyuan@TXhunyuan72°腾讯混元与中国人民大学高瓴人工智能学院合作开源了PlanningBench,这是一个可扩展、可验证的框架,用于评估和训练大语言模型的规划能力。该框架包含30多个真实世界的规划任务,支持自动验证,并提供评估和训练支持。PlanningBench旨在帮助LLM从“说”转向“做”,即提升其实际规划与执行能力。该框架已在arXiv发布论文,代码在GitHub开源,数据集在HuggingFace上可用。论文规划能力评估框架开源/仓库腾讯混元LLM1 个信源在谈推荐理由:PlanningBench解决了LLM规划能力评估缺乏标准化基准的问题,做AI Agent或任务规划的研究者和开发者可以直接用这个框架测试和训练模型,建议点开看看具体任务和验证方式。原文