10:17
10:17
arXiv cs.AI@Senjie Jin, Peixin Wang, Boyang Liu, Xiaoran Fan, Shuo Li, Zhiheng Xi, Jiazheng Zhang, Yuhao Zhou, Tao Gui, Qi Zhang, Xuanjing Huang 研究发现,在视觉推理任务中,仅依赖令牌级熵进行强化学习(RLVR)会失效,因为视觉敏感但熵低的令牌被忽略。现有多模态RL方法要么缺乏系统视觉度量,要么忽视熵主要驱动语义探索。为此,研究者提出VEPO框架,通过视觉敏感性与令牌熵的乘法耦合,将梯度信用分配给同时具备视觉基础和高信息量的令牌。实验表明,VEPO在7B和3B规模上分别比熵基线提升2.28和3.15个百分点,消融实验验证了方法的有效性。
推荐理由:视觉推理强化学习一直缺乏有效的信用分配机制,VEPO解决了这个痛点——做多模态RL的团队可以直接参考这个框架,在视觉-语义交叉场景中提升模型表现。
12:05
12:05
arXiv: DeepSeek@Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim K-BrowseComp 是一个专门针对韩语环境的网页浏览智能体基准测试,包含 400 个问题。其中 300 个问题由韩语母语者手工构建和验证,前沿模型如 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 在该子集上仅达到 30.00-45.67% 的准确率,远低于 BrowseComp 的表现。韩国本土大模型表现更差,仅 0.00-10.33%。研究还构建了 100 个合成问题作为压力测试,最强模型仅达 26.00%。该基准填补了韩语智能体评估的空白,揭示了当前模型在非英语环境下的显著短板。
推荐理由:做多语言智能体或网页浏览任务的团队会立刻意识到差距——韩语场景下最强模型准确率不到一半,说明现有评估严重偏向英语。做韩语 NLP 或本地化产品的开发者可以直接用这个基准测试自己的模型。
12:05
12:05
arXiv cs.LG@Ning Lu, Baijiong Lin, Shengcai Liu, Jiahao Wu, Haoze Lv, Yanbin Wei, Lingting Zhu, Shengju Qian, Xin Wang, Ying-Cong Chen, Qi Wang, Ke Tang 论文提出 PaW 框架,在强化学习训练语言智能体时,利用策略 rollout 中的动作-观测对作为世界模型监督信号,无需额外模拟器或推理计算。通过动作熵筛选数据、噪声容忍损失和自适应损失平衡三个组件,PaW 在多个智能体任务基准上显著优于纯 RL 基线。该方法解决了 RL 缺乏环境反馈监督的问题,让智能体不仅知道“做什么能得高分”,还理解“动作对环境的影响”。实验表明标准 RL rollout 即可提供有效的世界模型训练信号,降低了世界模型的应用门槛。
推荐理由:做语言智能体强化学习的团队,可以用 PaW 在现有 RL 流程中零成本加入世界模型监督,提升智能体对环境的理解能力,值得在项目中尝试。
12:03
12:03
arXiv cs.AI@Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen MCP-Persona 是首个专门评估 LLM 智能体在真实个人化 MCP 工具上表现的基准。它覆盖了 Reddit、小红书、飞书、Slack 等主流社交和协作平台,测试智能体与个人账户和本地数据库交互的能力。实验发现,当前最先进的智能体在处理个人化工具时表现挣扎,凸显了该基准在识别和解决这些局限性的关键作用。该基准已开源,可供开发者直接使用。
推荐理由:MCP-Persona 填补了现有基准忽视个人化工具交互的空白,做智能体开发和 MCP 工具集成的团队可以直接用它来测试和优化自己的模型。
12:03
12:03
arXiv cs.LG@Mind Lab, :, Song Cao, Vic Cao, Kaijie Chen, Bunny Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Autumn Jin, Fancy Kong, Kyrie Lei, Alexy Li, Dawn Li, Ray Li, Theo Li, Wenhao Li, Jiayi Lin, Domini Liu, Heshan Liu, Kairus Liu, Logan Liu, Maeve Luo, Runism Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Maxwell Yao, Regis Ye, Wenlin Ye, Yanying Ye, Josh Ying, Danney Zeng, Salmon Zhan, Anya Zhang, Ruijia Zhang, Shiyang Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Sizer Zhou, Xinyue Zhu, Murphy Zhuang 本文重新审视参数高效微调(PEFT)的角色,提出将其视为在强大基础模型上附加的持久本地状态,而非仅作为全参数微调的廉价替代。研究围绕三个扩展维度展开:向上扩展(更强的共享先验使小适配器更有用)、向下扩展(研究适配器的最小可靠尺寸)以及向外扩展(大量持久适配实例共存)。MinT 基础设施示例展示了如何管理适配器的身份、版本、来源、评估和服务驻留。结果表明,PEFT 可以成为持久个性化模型的紧凑载体,而不仅仅是预算有限的微调替代方案。
推荐理由:这篇论文重新定义了 PEFT 的潜力——从省钱技巧变成个性化模型的基石,做大规模模型部署和个性化服务的团队值得关注,尤其是那些需要为每个用户维护独立模型状态的场景。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。