精选理由
做浏览器自动化或代理系统的团队,这个对比直接告诉你模型选择如何影响生产环境的成本和稳定性——Kimi/GLM/MiniMax 的低重试率值得关注。
Fireworks AI 与 NotteCore 合作,在多个前沿模型上运行了 720 个浏览器代理任务。结果显示,某个基线模型在约 1/5 的调用中产生格式错误输出,导致多步工作流中频繁重试。而 Kimi K2.5、GLM-5 和 MiniMax M2.5 在 Fireworks 上运行时,重试率近乎为零,且随着任务步骤增加,延迟保持稳定。这一差异在生产级代理系统中直接体现为成本、延迟和可靠性的分化。完整报告已发布。
AI 翻译 · 中文
Fireworks AI 与 NotteCore 合作,在多个前沿模型上运行了 720 个浏览器代理任务。结果显示,某个基线模型在约 1/5 的调用中产生格式错误输出,导致多步工作流中频繁重试。而 Kimi K2.5、GLM-5 和 MiniMax M2.5 在 Fireworks 上运行时,重试率近乎为零,且随着任务步骤增加,延迟保持稳定。这一差异在生产级代理系统中直接体现为成本、延迟和可靠性的分化。完整报告已发布。
We ran 720 browser agent tasks with @nottecore across frontier models. One baseline model produced malformed outputs in ~1 out of every 5 calls, leading to retries inside multi-step workflows. Across Kimi K2.5, GLM-5, an…