Fireworks 测试 720 个浏览器代理任务：Kimi K2.5/GLM-5/MiniMax M2.5 重试率近乎零

精选理由

做浏览器自动化或代理系统的团队，这个对比直接告诉你模型选择如何影响生产环境的成本和稳定性——Kimi/GLM/MiniMax 的低重试率值得关注。

AI 摘要

Fireworks AI 与 NotteCore 合作，在多个前沿模型上运行了 720 个浏览器代理任务。结果显示，某个基线模型在约 1/5 的调用中产生格式错误输出，导致多步工作流中频繁重试。而 Kimi K2.5、GLM-5 和 MiniMax M2.5 在 Fireworks 上运行时，重试率近乎为零，且随着任务步骤增加，延迟保持稳定。这一差异在生产级代理系统中直接体现为成本、延迟和可靠性的分化。完整报告已发布。

AI 翻译 · 中文

Fireworks AIWe ran 720 browser agent tasks with @nottecore across frontier models. One baseline model produced malformed outputs in ~1 out of every 5 calls, leading to retries inside multi-step workflows. Across Kimi K2.5, GLM-5, an…

eric zakariasson05-21 13:02原文
shao__meng05-19 00:50原文
IT之家05-19 02:06原文

查看原推