10:20
arXiv cs.AI@Xiaoyuan Liu, Jianhong Tu, Yuqi Chen, Siyuan Xie, Sihan Ren, Tianneng Shi, Gal Gantar, Evan Sandoval, Donghyun Lee, Daniel Miao, Peter J. Gilbert, Nick Hynes, Mauro Staver, Warren He, David Marn, Andrew Low, Xi Zhang, Elron Bandel, Michal Shmueli-Scheuer, Siva Reddy, Alexandre Drouin, Alexandre Lacoste, Ramayya Krishnan, Elham Tabassi, Yu Su, Victor Barres, Chenguang Wang, Wenbo Guo, Dawn Song AgentBeats 提出了一种全新的智能体评估框架 AAA(Agentified Agent Assessment),由智能体担任裁判,通过 A2A 和 MCP 标准化协议与待测智能体交互,取代传统依赖 LLM 的固定测试框架。该方法统一了评估接口,解决了现有基准测试集成成本高、测试与生产环境不匹配、跨设计公平比较难的问题。研究通过五个月开放竞赛(298 个裁判智能体、467 个参赛智能体)和编程智能体案例验证,证明 AAA 在覆盖度、实用性和保真度上均表现优异。AgentBeats 为智能体评估提供了开放、标准化、可复现的路径。
推荐理由:做智能体评测或基准测试的团队终于有了一个通用框架——AgentBeats 用智能体评估智能体,解决了传统测试碎片化、难复现的痛点,建议做 Agent 平台或竞赛的开发者点开看看。