AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:评估框架×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月6日
00:42
00:42AK@_akhaliq
ArcANE 是一个新提出的评估框架,用于测试角色扮演语言代理(RPLA)在对话中是否能在恰当的时候保持角色一致性。研究发现,现有模型在需要切换角色或根据上下文调整角色行为时表现不佳。该框架通过动态场景和角色切换任务,揭示了当前 RPLA 在角色保持与适应之间的平衡问题。这对开发更自然、更可信的对话 AI 有重要参考价值。
论文角色扮演评估框架语言代理一致性对话AI

推荐理由:做角色扮演 AI 或对话系统的开发者会感兴趣——ArcANE 揭示了当前模型在角色一致性上的关键短板,值得用来测试自己的模型。
原文
6月5日
17:03
17:03Hunyuan@TXhunyuan
72°
腾讯混元与中国人民大学高瓴人工智能学院合作开源了PlanningBench,这是一个可扩展、可验证的框架,用于评估和训练大语言模型的规划能力。该框架包含30多个真实世界的规划任务,支持自动验证,并提供评估和训练支持。PlanningBench旨在帮助LLM从“说”转向“做”,即提升其实际规划与执行能力。该框架已在arXiv发布论文,代码在GitHub开源,数据集在HuggingFace上可用。
论文规划能力评估框架开源/仓库腾讯混元LLM

推荐理由:PlanningBench解决了LLM规划能力评估缺乏标准化基准的问题,做AI Agent或任务规划的研究者和开发者可以直接用这个框架测试和训练模型,建议点开看看具体任务和验证方式。
原文
5月22日
08:06
08:06LangChain@LangChainAI
精选
DataboxHQ 分享了他们如何使用 LangSmith 评估其多轮对话分析智能体 Genie。Genie 是一个能处理复杂数据分析任务的智能体,需要多轮交互才能完成用户请求。LangSmith 提供了评估框架,帮助团队追踪智能体的表现、识别错误并优化对话流程。这一实践展示了如何系统性地评估多轮智能体,对构建可靠 AI 助手的团队有参考价值。
AI产品智能体评估框架LangSmith数据分析多轮对话

推荐理由:做多轮对话智能体的团队终于有了可落地的评估方案——LangSmith 帮 Databox 把 Genie 的对话质量量化了,建议做 AI 分析助手的开发者点开看看具体怎么做的。
原文
精选全部日报登录