6月3日
10:45
10:45arXiv cs.LG@Tao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang, Yihao Liu, Jingwei Ni, Jiaqi Guo, Mengyu Zhou, Kai Tang, Junling Liu, Qinliang Su, Xiaoxi Jiang, Guanjun Jiang
精选
当前大语言模型后训练中的奖励模型依赖规则验证器、真实参考、程序检查表等异构标准,缺乏统一机制。Skill-RM 将奖励建模重构为可复用的“奖励评估技能”执行过程,通过智能体动态选择和聚合证据,实现一致且透明的评估。在奖励基准和下游任务(如 Best-of-N 选择和强化学习)中,Skill-RM 持续超越传统基线。该方法为奖励建模提供了统一解决方案,并通过策略性证据编排取得更优性能。代码已开源。
推荐理由:做 LLM 后训练(RFT/RL)的团队终于有了统一的奖励评估框架,不用再为不同任务拼凑规则和检查表了——Skill-RM 用智能体思路动态整合证据,效果还更好,做对齐和强化学习的建议直接看代码。
6月2日
12:05
12:05arXiv: DeepSeek@Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim
K-BrowseComp 是一个专门针对韩语环境的网页浏览智能体基准测试,包含 400 个问题。其中 300 个问题由韩语母语者手工构建和验证,前沿模型如 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 在该子集上仅达到 30.00-45.67% 的准确率,远低于 BrowseComp 的表现。韩国本土大模型表现更差,仅 0.00-10.33%。研究还构建了 100 个合成问题作为压力测试,最强模型仅达 26.00%。该基准填补了韩语智能体评估的空白,揭示了当前模型在非英语环境下的显著短板。

推荐理由:做多语言智能体或网页浏览任务的团队会立刻意识到差距——韩语场景下最强模型准确率不到一半,说明现有评估严重偏向英语。做韩语 NLP 或本地化产品的开发者可以直接用这个基准测试自己的模型。
12:03
12:03arXiv cs.AI@Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen
精选72°
MCP-Persona 是首个专门评估 LLM 智能体在真实个人化 MCP 工具上表现的基准。它覆盖了 Reddit、小红书、飞书、Slack 等主流社交和协作平台,测试智能体与个人账户和本地数据库交互的能力。实验发现,当前最先进的智能体在处理个人化工具时表现挣扎,凸显了该基准在识别和解决这些局限性的关键作用。该基准已开源,可供开发者直接使用。

推荐理由:MCP-Persona 填补了现有基准忽视个人化工具交互的空白,做智能体开发和 MCP 工具集成的团队可以直接用它来测试和优化自己的模型。
6月1日
10:47
10:47arXiv cs.AI@Weitong Qian, Beicheng Xu, Zhongao Xie, Bowen Fan, Guozheng Tang, Jiale Chen, Xinzhe Wu, Mingtian Yang, Chenyang Di, Jiajun Li, Lingching Tung, Peichao Lai, Yifei Xia, Ziyi Guo, Yanwei Xu, Yanzhao Qin, Shaoduo Gan, Xupeng Miao, Bin Cui
精选
AutoSci 是一个基于大语言模型的智能体系统,旨在自动化科学研究的完整生命周期,包括文献理解、想法生成、实验、论文撰写和审稿回复。它通过四个核心模块实现:SciMem 提供结构化研究记忆,区分长期知识记忆和项目级活动记忆;SciFlow 执行五阶段生命周期流程;SciDAG 用有向无环图增强复杂技能;SciEvolve 通过反馈信号持续优化系统。该系统解决了现有科研智能体无法统一支持全流程、缺乏持久记忆和自进化能力的问题。代码已开源,为科研自动化提供了可扩展的框架。
推荐理由:做科研自动化的团队终于有了一个能覆盖全流程、带记忆还能自我进化的系统——AutoSci 把文献、实验、写作、审稿串起来了,搞学术自动化的开发者可以直接用它的开源代码试试。
5月27日
5月26日
5月25日
5月22日
5月21日
09:46
09:46arXiv cs.AI@Gundeep Singh, Parsa Kavehzadeh, Jing Xia, Xue-Yong Fu, Julien Bouvier Tremblay, Md Tahmid Rahman Laskar, Vincent Lum, Shashi Bhushan TN
精选
传统Text-to-SQL方法在企业环境中面临挑战,因为企业分析依赖受治理的API而非原始数据库。本文提出Analytic Agent,一个基于LLM的智能体系统,能将自然语言意图转化为安全的API交互。该系统通过多步推理和策略感知编排,实现用户目标理解、权限验证、受控查询执行和合规可视化生成。在90个真实企业用例上评估,表现可靠。
推荐理由:企业数据分析团队终于有了兼顾安全与易用性的方案——Analytic Agent解决了LLM直接操作数据库的合规风险,做BI或数据治理的开发者值得关注。
5月20日
5月19日
14:22
14:22arXiv cs.AI@Xuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He
精选72°
本文提出“代码即智能体框架”概念,认为代码不仅是输出,更是智能体推理、行动、环境建模和执行验证的操作基础。论文从三个层次系统梳理:框架接口(代码连接推理与行动)、框架机制(规划、记忆、工具使用与反馈控制)、框架扩展(单智能体到多智能体协作)。覆盖编程助手、GUI/OS自动化、具身智能、科学发现、DevOps等应用场景,并指出评估、验证、状态共享等开放挑战。该视角为构建可执行、可验证、有状态的AI智能体系统提供了统一路线图。
推荐理由:这篇综述把代码在智能体系统中的角色从“输出”提升到了“基础设施”层面,做智能体框架设计或工具链开发的团队值得一读,能帮你理清当前方法的脉络和未来方向。