腾讯混元联合人大开源PlanningBench，大模型从卷推理转向卷规划

精选理由

PlanningBench把规划能力从黑盒拉到公开赛道，做智能体开发的团队可以直接用它测模型短板、微调训练，让AI从“会聊天”真正进化到“会干活”。

AI 摘要

腾讯混元与人大高瓴人工智能学院联合开源了PlanningBench，一个专门评估和训练LLM真实规划能力的框架。该框架包含30多个来自真实世界的规划任务，覆盖调度、生产、旅行、资源分配和应急响应六大类，每个任务都有清晰的成功标准和全自动验证机制。用户既可以用它测试当前最强模型的规划能力，也可以直接用于微调，让模型从“会说”进化到“会干”。PlanningBench揭示了规划能力是智能体从玩具走向生产力的关键分水岭，腾讯已将论文、代码和数据集全部开源。

AI 翻译 · 中文

berryxia大模型都不再卷推理，都开始卷规划能力！腾讯混元联合人大高瓴人工智能学院直接开源了PlanningBench，一个专门测、训LLM真实规划能力的框架。里面塞了30多个来自真实世界的规划任务，覆盖调度、生产、旅行、资源分配、应急响应等六大类，每一个都有清晰的成功标准和全自动验证机制。你既可以用它测出当前最强模型到底在规划上有多拉胯，也能直接拿来继续微调，让模型从“会说”真正进化到“会干”。以前整个行业都在卷参数、卷上下文、卷工具调用…

Hunyuan06-05 07:46原文

查看原推