03:58lmarena.ai@lmarena_aiGLM-5.2 (Max) 在 Text Arena 总榜排名第25位,与上一版本 GLM-5.1 水平接近。在 Expert Arena 和 Multi-Turn 子类别中取得较大进步。在生命科学、社会科学、创意写作和医学医疗等职业类别中表现提升。AI模型GLM-5.2GLM-5.1智谱Text Arena多轮对话推荐理由:智谱新模型 GLM-5.2 整体排名没变,但在专家问答和多轮对话上进步明显,写创意和医学内容更强了。原文
08:06LangChain@LangChainAI精选DataboxHQ 分享了他们如何使用 LangSmith 评估其多轮对话分析智能体 Genie。Genie 是一个能处理复杂数据分析任务的智能体,需要多轮交互才能完成用户请求。LangSmith 提供了评估框架,帮助团队追踪智能体的表现、识别错误并优化对话流程。这一实践展示了如何系统性地评估多轮智能体,对构建可靠 AI 助手的团队有参考价值。AI产品智能体评估框架LangSmith数据分析多轮对话推荐理由:做多轮对话智能体的团队终于有了可落地的评估方案——LangSmith 帮 Databox 把 Genie 的对话质量量化了,建议做 AI 分析助手的开发者点开看看具体怎么做的。原文
15:02xiaomimimo@XiaomiMiMo小米MiMo团队发布警告,使用思考模式进行多轮智能体对话时,若历史记录包含工具调用,后续用户回合必须保留完整推理内容字段,否则API会返回400错误。缺失推理内容会导致上下文不完整,降低指令遵循能力、增加幻觉并影响用户体验。受影响的框架包括TRAE、Cursor、Roo Code、Codex、GitHub Copilot CLI、Zed和AutoGen,团队正与维护者合作推动兼容更新。涉及模型包括MiMo-V2.5-Pro、MiMo-V2.5、MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-Flash。AI产品小米MiMoAPI变更智能体多轮对话推理内容7 个信源在谈推荐理由:这个API变更直接影响使用小米MiMo模型的智能体开发者,尤其是多轮对话场景。如果你在用TRAE、Cursor等框架集成MiMo,建议立即检查代码,避免因缺失推理内容导致400错误和体验降级。原文