12:03
arXiv cs.AI@Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen MCP-Persona 是首个专门评估 LLM 智能体在真实个人化 MCP 工具上表现的基准。它覆盖了 Reddit、小红书、飞书、Slack 等主流社交和协作平台,测试智能体与个人账户和本地数据库交互的能力。实验发现,当前最先进的智能体在处理个人化工具时表现挣扎,凸显了该基准在识别和解决这些局限性的关键作用。该基准已开源,可供开发者直接使用。
推荐理由:MCP-Persona 填补了现有基准忽视个人化工具交互的空白,做智能体开发和 MCP 工具集成的团队可以直接用它来测试和优化自己的模型。