全部 AI 动态 · AI 热点

6月17日

03:58

03:58

lmarena.ai@lmarena_ai

GLM-5.2 (Max) 在 Text Arena 总榜排名第25位，与上一版本 GLM-5.1 水平接近。在 Expert Arena 和 Multi-Turn 子类别中取得较大进步。在生命科学、社会科学、创意写作和医学医疗等职业类别中表现提升。

AI模型 GLM-5.2 GLM-5.1 智谱 Text Arena 多轮对话

推荐理由：智谱新模型 GLM-5.2 整体排名没变，但在专家问答和多轮对话上进步明显，写创意和医学内容更强了。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月22日

08:06

08:06

LangChain@LangChainAI

精选

DataboxHQ 分享了他们如何使用 LangSmith 评估其多轮对话分析智能体 Genie。Genie 是一个能处理复杂数据分析任务的智能体，需要多轮交互才能完成用户请求。LangSmith 提供了评估框架，帮助团队追踪智能体的表现、识别错误并优化对话流程。这一实践展示了如何系统性地评估多轮智能体，对构建可靠 AI 助手的团队有参考价值。

AI产品智能体评估框架 LangSmith 数据分析多轮对话

推荐理由：做多轮对话智能体的团队终于有了可落地的评估方案——LangSmith 帮 Databox 把 Genie 的对话质量量化了，建议做 AI 分析助手的开发者点开看看具体怎么做的。

5月14日

15:02

15:02

xiaomimimo@XiaomiMiMo

小米MiMo团队发布警告，使用思考模式进行多轮智能体对话时，若历史记录包含工具调用，后续用户回合必须保留完整推理内容字段，否则API会返回400错误。缺失推理内容会导致上下文不完整，降低指令遵循能力、增加幻觉并影响用户体验。受影响的框架包括TRAE、Cursor、Roo Code、Codex、GitHub Copilot CLI、Zed和AutoGen，团队正与维护者合作推动兼容更新。涉及模型包括MiMo-V2.5-Pro、MiMo-V2.5、MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-Flash。

AI产品小米MiMo API变更智能体多轮对话推理内容

推荐理由：这个API变更直接影响使用小米MiMo模型的智能体开发者，尤其是多轮对话场景。如果你在用TRAE、Cursor等框架集成MiMo，建议立即检查代码，避免因缺失推理内容导致400错误和体验降级。