行业精选73°

Atomic Bot 用 Qwen 35B 实测对比 OpenClaw 和 Hermes Agent,引发大佬激辩

Atomic Bot 发布的基于本地模型 Qwen 35B真实任务视频对比,引发 OpenClaw 和 Hermes Agent 两位大佬辩论 OpenClaw 创始人 @steipete 转发了这...

精选理由

AI Agent 开发者或评测爱好者会看到一场关于基准科学性的硬核辩论——单次跑分 vs 真实用户数据,哪个更可信?值得点开围观双方论据。

AI 摘要

Atomic Bot 发布了一段基于本地模型 Qwen 35B 的真实任务视频,对比 OpenClaw 和 Hermes Agent 在抓取 GitHub 仓库 star 历史、分析增长 spike 并构建实时仪表盘上的表现。OpenClaw 用时 12 分 01 秒、消耗 203k tokens,Hermes Agent 用时 33 分 01 秒、消耗 257k tokens。Hermes 联创 @Teknium 反击称该基准不科学,指出单次运行、无重复测试、Qwen 35B 易循环等问题,并展示 Hermes 在公开基准和真实用户数据上全面领先,用户日 token 量已达 OpenClaw 的 2.5 倍。这场辩论揭示了 AI Agent 评测的复杂性和社区对公平对比的诉求。

AI 翻译 · 中文

Atomic Bot 发布了一段基于本地模型 Qwen 35B 的真实任务视频,对比 OpenClaw 和 Hermes Agent 在抓取 GitHub 仓库 star 历史、分析增长 spike 并构建实时仪表盘上的表现。OpenClaw 用时 12 分 01 秒、消耗 203k tokens,Hermes Agent 用时 33 分 01 秒、消耗 257k tokens。Hermes 联创 @Teknium 反击称该基准不科学,指出单次运行、无重复测试、Qwen 35B 易循环等问题,并展示 Hermes 在公开基准和真实用户数据上全面领先,用户日 token 量已达 OpenClaw 的 2.5 倍。这场辩论揭示了 AI Agent 评测的复杂性和社区对公平对比的诉求。

shao__mengAtomic Bot 发布的基于本地模型 Qwen 35B真实任务视频对比,引发 OpenClaw 和 Hermes Agent 两位大佬辩论 OpenClaw 创始人 @steipete 转发了这个抓取 GitHub 仓库(OpenClaw & Hermes)的 star 历史、分析增长 spike 原因,并构建实时浏览器仪表盘的任务。 视频实测结果 · OpenClaw:12分01秒,203k tokens。直接调用GitH