6月2日
12:03
12:03arXiv cs.AI@Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen
精选72°
MCP-Persona 是首个专门评估 LLM 智能体在真实个人化 MCP 工具上表现的基准。它覆盖了 Reddit、小红书、飞书、Slack 等主流社交和协作平台,测试智能体与个人账户和本地数据库交互的能力。实验发现,当前最先进的智能体在处理个人化工具时表现挣扎,凸显了该基准在识别和解决这些局限性的关键作用。该基准已开源,可供开发者直接使用。

推荐理由:MCP-Persona 填补了现有基准忽视个人化工具交互的空白,做智能体开发和 MCP 工具集成的团队可以直接用它来测试和优化自己的模型。
5月21日
11:03
11:03arXiv cs.AI@Junshu Pan, Panzhong Lu, Yixuan Weng, Qiyao Sun, Fang Guo, Zijie Yang, Qiji Zhou, Yue Zhang
精选
AiraXiv 是一个由AI驱动的开放获取平台,旨在解决传统学术出版系统在AI时代面临的投稿量激增、审稿压力大等问题。该平台支持人类科学家通过交互式UI参与,也允许AI科学家通过MCP协议进行交互。论文以开放预印本为基础,结合AI增强分析和读者反馈,实现持续迭代。AiraXiv 已在ICAIS 2025会议上作为投稿平台实际部署,验证了其作为快速、包容、可扩展的研究基础设施的潜力。
推荐理由:学术出版系统正被AI生成论文淹没,AiraXiv 提供了一个让人类和AI科学家平等参与、论文持续演进的解决方案。做学术出版、科研管理或AI研究的人值得关注,它可能改变未来论文的发表和评审方式。