12:05arXiv cs.AI@Shiyun Xiong, Dongming Wu, Peiwen Sun, Yuang Ai, Bokang Yang, Wencheng Han, Xiao-Hui Li, Xiangyu Yue精选论文提出 Benchmark Agent,一个全自动构建 LLM/MLLM 评测基准的智能体系统。它从用户需求分析、子任务设计到数据标注和质量控制,全流程自动化。作者用它生成了 15 个覆盖文本理解、多模态理解和领域推理的基准,经人类评估和 LLM 评判验证,质量高且无需人工参与。该系统解决了传统基准构建劳动密集、易饱和的问题,能持续生成新基准以区分顶尖模型。代码和预览已公开。论文评测基准智能体自动化LLMMLLM推荐理由:做 LLM 评测的团队终于有了自动化工具——Benchmark Agent 能持续生成新基准,避免模型性能饱和,建议做模型评估的开发者直接试试。原文
12:02arXiv cs.LG@Xinhao Song, Su Su, Sirui Song, Hongliang Wu, Wen Shen, Zhihua Wei, Gongshen Liu, Linfeng Zhang, Dongrui Liu精选72°多模态智能体正被期望替代人类操作界面,但 CAPTCHA 验证是服务商故意设置的自动化屏障。新提出的 HLL 基准测试通过交互式 CAPTCHA 评估智能体能否以类人方式突破这一防线,而非仅靠图像识别。测试覆盖多种验证类型,并引入杂乱网页、困难变体等现实压力因素。结果显示,当前前沿多模态智能体在定位、动作校准、状态追踪和过程一致性上存在明显短板,性能随验证类型和界面复杂度剧烈波动。该基准为衡量智能体在受保护工作流中替代人类的能力提供了具体测试平台。论文多模态智能体CAPTCHA基准测试人机交互自动化推荐理由:CAPTCHA 是 AI 替代人类操作的最后一道门槛,做智能体自动化或 GUI 操作的团队可以用 HLL 测试自家模型的实际突破能力,结果可能会让你重新评估部署策略。原文
09:17arXiv: Anthropic@James P. Balhoff, Hilmar Lapp精选表型注释是将自由文本描述链接到本体术语的关键步骤,但传统上依赖高训练专家,难以规模化。本研究使用Anthropic和OpenAI的五个前沿LLM作为“智能体策展人”,在自包含工作空间中提供原始论文PDF、注释指南和本体文件,评估其与人类策展人的一致性。结果显示,所有智能体均达到原始研究中三位训练人类策展人的一致性范围,最佳智能体接近但未超越最佳人类策展人,且在所有指标上大幅优于传统NLP工具。这表明LLM智能体有潜力自动化表型注释,缓解本体策展瓶颈。论文LLM智能体表型注释本体策展生物信息学自动化10 个信源在谈推荐理由:做生物信息学或本体工程的研究者终于有了可扩展的自动化方案——LLM智能体直接对标人类专家水平,建议点开看具体实现和评估细节。原文
15:30arXiv cs.AI@Antonio Ielo, Francesco Doria, Sandra Castellanos-Paez, Marco Maratea, Francesco Percassi, Mauro Vallati精选该论文首次提出使用回答集编程(ASP)自动化长期电网规划过程。电网作为关键基础设施,需应对可持续目标、需求模式和城市化趋势,而规划周期可能长达十年,需保持拓扑和组合不变量。传统规划语言难以表达这些复杂约束,而ASP能简洁优雅地编码。实验在合成和真实电网数据上验证了该方法的表达力和有效性。论文电网规划回答集编程自动化基础设施优化推荐理由:电网规划人员终于有了自动化工具——ASP 优雅处理了传统语言难以表达的拓扑约束,做电力系统优化的团队可以直接参考论文方法。原文