14:00shao__meng@shao__meng精选73°Atomic Bot 发布了一段基于本地模型 Qwen 35B 的真实任务视频,对比 OpenClaw 和 Hermes Agent 在抓取 GitHub 仓库 star 历史、分析增长 spike 并构建实时仪表盘上的表现。OpenClaw 用时 12 分 01 秒、消耗 203k tokens,Hermes Agent 用时 33 分 01 秒、消耗 257k tokens。Hermes 联创 @Teknium 反击称该基准不科学,指出单次运行、无重复测试、Qwen 35B 易循环等问题,并展示 Hermes 在公开基准和真实用户数据上全面领先,用户日 token 量已达 OpenClaw 的 2.5 倍。这场辩论揭示了 AI Agent 评测的复杂性和社区对公平对比的诉求。行业AI AgentOpenClawHermes AgentQwen 35B基准评测2 个信源在谈推荐理由:AI Agent 开发者或评测爱好者会看到一场关于基准科学性的硬核辩论——单次跑分 vs 真实用户数据,哪个更可信?值得点开围观双方论据。原文
19:11arXiv cs.LG@Marcin Kostrzewa, Sebastian Tomczak, Roman Furman, Anna Poberezhna, Michał Furgała, Oleksii Furman, Maciej Zięba企业破产预测是高风险金融任务,面临严重类别不平衡和多时间跨度预测挑战,但现有公共数据集规模小且稀缺。新基准V4FinBench包含来自维谢格拉德集团四国(2006-2021)的超过100万条公司年度记录,涵盖131个特征、六种预测时间范围,并采用综合财务困境标准。参考评估显示,经过不平衡感知微调的TabPFN在长周期F1和ROC-AUC上达到或超越梯度提升;而Llama-3-8B在每个时间范围的ROC-AUC上均落后于梯度提升。在外部美国破产数据集上,V4FinBench微调的TabPFN优于原始版本,表明学到了可迁移的财务困境结构。该基准已开源,以支持更真实的金融预测方法评估。论文表格基础模型金融预测基准评测TabPFN不均衡学习推荐理由:对于金融风控从业者,该基准提供了百万级真实财务数据及多时间范围评测框架,可有效检验表格型基础模型和LLM在不平衡场景下的预测能力。原文