AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:多轮对话×
6月17日
03:58
03:58lmarena.ai@lmarena_ai
GLM-5.2 (Max) 在 Text Arena 总榜排名第25位,与上一版本 GLM-5.1 水平接近。在 Expert Arena 和 Multi-Turn 子类别中取得较大进步。在生命科学、社会科学、创意写作和医学医疗等职业类别中表现提升。
AI模型GLM-5.2GLM-5.1智谱Text Arena多轮对话

推荐理由:智谱新模型 GLM-5.2 整体排名没变,但在专家问答和多轮对话上进步明显,写创意和医学内容更强了。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月22日
08:06
08:06LangChain@LangChainAI
精选
DataboxHQ 分享了他们如何使用 LangSmith 评估其多轮对话分析智能体 Genie。Genie 是一个能处理复杂数据分析任务的智能体,需要多轮交互才能完成用户请求。LangSmith 提供了评估框架,帮助团队追踪智能体的表现、识别错误并优化对话流程。这一实践展示了如何系统性地评估多轮智能体,对构建可靠 AI 助手的团队有参考价值。
AI产品智能体评估框架LangSmith数据分析多轮对话

推荐理由:做多轮对话智能体的团队终于有了可落地的评估方案——LangSmith 帮 Databox 把 Genie 的对话质量量化了,建议做 AI 分析助手的开发者点开看看具体怎么做的。
原文
5月14日
15:02
15:02xiaomimimo@XiaomiMiMo
小米MiMo团队发布警告,使用思考模式进行多轮智能体对话时,若历史记录包含工具调用,后续用户回合必须保留完整推理内容字段,否则API会返回400错误。缺失推理内容会导致上下文不完整,降低指令遵循能力、增加幻觉并影响用户体验。受影响的框架包括TRAE、Cursor、Roo Code、Codex、GitHub Copilot CLI、Zed和AutoGen,团队正与维护者合作推动兼容更新。涉及模型包括MiMo-V2.5-Pro、MiMo-V2.5、MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-Flash。
AI产品小米MiMoAPI变更智能体多轮对话推理内容

推荐理由:这个API变更直接影响使用小米MiMo模型的智能体开发者,尤其是多轮对话场景。如果你在用TRAE、Cursor等框架集成MiMo,建议立即检查代码,避免因缺失推理内容导致400错误和体验降级。
原文
精选全部日报登录