全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

20:08

20:08

berryxia@berryxia

76°

腾讯混元与人大高瓴人工智能学院联合开源了PlanningBench，一个专门评估和训练LLM真实规划能力的框架。该框架包含30多个来自真实世界的规划任务，覆盖调度、生产、旅行、资源分配和应急响应六大类，每个任务都有清晰的成功标准和全自动验证机制。用户既可以用它测试当前最强模型的规划能力，也可以直接用于微调，让模型从“会说”进化到“会干”。PlanningBench揭示了规划能力是智能体从玩具走向生产力的关键分水岭，腾讯已将论文、代码和数据集全部开源。

AI模型规划能力 PlanningBench 腾讯混元智能体开源/仓库

推荐理由：PlanningBench把规划能力从黑盒拉到公开赛道，做智能体开发的团队可以直接用它测模型短板、微调训练，让AI从“会聊天”真正进化到“会干活”。

17:03

17:03

Hunyuan@TXhunyuan

72°

腾讯混元与中国人民大学高瓴人工智能学院合作开源了PlanningBench，这是一个可扩展、可验证的框架，用于评估和训练大语言模型的规划能力。该框架包含30多个真实世界的规划任务，支持自动验证，并提供评估和训练支持。PlanningBench旨在帮助LLM从“说”转向“做”，即提升其实际规划与执行能力。该框架已在arXiv发布论文，代码在GitHub开源，数据集在HuggingFace上可用。

论文规划能力评估框架开源/仓库腾讯混元 LLM

推荐理由：PlanningBench解决了LLM规划能力评估缺乏标准化基准的问题，做AI Agent或任务规划的研究者和开发者可以直接用这个框架测试和训练模型，建议点开看看具体任务和验证方式。