6月3日
6月2日
12:05
12:05arXiv: DeepSeek@Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim
K-BrowseComp 是一个专门针对韩语环境的网页浏览智能体基准测试,包含 400 个问题。其中 300 个问题由韩语母语者手工构建和验证,前沿模型如 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 在该子集上仅达到 30.00-45.67% 的准确率,远低于 BrowseComp 的表现。韩国本土大模型表现更差,仅 0.00-10.33%。研究还构建了 100 个合成问题作为压力测试,最强模型仅达 26.00%。该基准填补了韩语智能体评估的空白,揭示了当前模型在非英语环境下的显著短板。

推荐理由:做多语言智能体或网页浏览任务的团队会立刻意识到差距——韩语场景下最强模型准确率不到一半,说明现有评估严重偏向英语。做韩语 NLP 或本地化产品的开发者可以直接用这个基准测试自己的模型。
12:03
12:03arXiv cs.AI@Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen
精选72°
MCP-Persona 是首个专门评估 LLM 智能体在真实个人化 MCP 工具上表现的基准。它覆盖了 Reddit、小红书、飞书、Slack 等主流社交和协作平台,测试智能体与个人账户和本地数据库交互的能力。实验发现,当前最先进的智能体在处理个人化工具时表现挣扎,凸显了该基准在识别和解决这些局限性的关键作用。该基准已开源,可供开发者直接使用。

推荐理由:MCP-Persona 填补了现有基准忽视个人化工具交互的空白,做智能体开发和 MCP 工具集成的团队可以直接用它来测试和优化自己的模型。
5月31日
5月29日
5月28日
5月27日
5月26日
11:49
11:49arXiv cs.AI@Junyuan Liu, Xinglei Wang, Zichao Zeng, Jiazhuang Feng, Quan Qin, Ilya Ilyankou, Guangsheng Dong, Tao Cheng
精选
城市表示学习将复杂城市环境编码为通用嵌入,但现有评估多局限于少数城市和任务,且随机划分导致空间泄漏,高估性能。CityRep 提出统一基准,包含空间单元无关的评估框架、基于区块的空间划分协议,以及覆盖 8 城市 8 任务的可扩展套件。评估 11 个模型发现,随机划分会扭曲性能排名,且模型表现因城市和任务差异显著。该基准提供数据集、评估管道和诊断工具,旨在推动城市表示学习的公平比较和泛化能力研究。
推荐理由:城市表示学习领域终于有了一个靠谱的评估标准——CityRep 解决了空间泄漏和跨城市泛化评估的痛点,做城市计算或地理空间 AI 的研究者可以直接用这个基准来检验自己的模型,避免被随机划分的虚假高分误导。
5月25日