11:19
11:19
arXiv cs.AI@Zhewen Tan, Yilun Yao, Huiyan Jin, Wenhan Yu, Guoan Wang, Mengyuan Fan, liang lu, Feng Liu, Xiangzheng Zhang, Duohe Ma, Tong Yang, Lin Sun 大语言模型智能体依赖持久记忆来存储历史交互并提升长任务执行能力,但这也带来了安全漏洞:对抗用户可通过正常交互向记忆库注入恶意记录,后续检索时操纵智能体行为。现有防御主要聚焦在线干预(如提示过滤),无法在有害行为发生后定位哪些记忆是罪魁祸首。MemAudit 提出后验因果审计框架,结合反事实记忆影响分数和记忆一致性图,从结构异常中识别恶意记忆。在 QA 和推理智能体场景下,MemAudit 将攻击成功率从 70% 和 83.3% 降至 0%,为智能体记忆安全提供了有效的审计工具。
推荐理由:智能体记忆安全是实际部署中的盲区,MemAudit 解决了「事后追责」的难题,做 LLM 安全或智能体系统的团队可以直接参考其因果审计方法。
11:12
11:12
arXiv cs.AI@Zisu Huang, Jingwen Xu, Yifan Yang, Ziyang Gong, Qihao Yang, Muzhao Tian, Xiaohua Wang, Changze Lv, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Xue Yang, Dongdong Chen, Xiaoqing Zheng, Chong Luo 这篇论文系统研究了语言智能体通过复用模型生成的技能(结构化程序化知识)来提升性能的全过程,涵盖经验生成、技能提取和技能消费三个阶段。研究发现,模型生成的技能平均有益,但存在显著的负迁移现象,且技能提取器和消费器的表现并不一致——一个模型可能是强提取器但弱消费者,反之亦然。技能效用与模型规模或基线任务强度无关。通过深入分析每个阶段,论文揭示了经验组成如何影响技能质量、有用技能的特征以及同一技能在不同消费者间的迁移效果。最后,作者提出了一种元技能方法,指导技能提取聚焦于实际效用相关的特征,一致提升了技能质量并大幅减少了负迁移。
推荐理由:这篇论文为智能体技能复用提供了首个系统性评估框架,做智能体开发或研究的人可以从中了解技能提取与消费的匹配规律,避免负迁移陷阱,值得关注。
11:11
11:11
arXiv cs.AI@Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo SkillOpt 提出了一种新方法,将智能体技能视为冻结模型的外部状态,通过独立的优化器模型对技能文档进行有界增删改编辑,并仅在严格提升验证集分数时接受修改。该方法引入了文本学习率预算、拒绝编辑缓冲区和逐轮慢/元更新机制,使技能训练稳定且部署时零额外模型调用。在 6 个基准、7 个目标模型和 3 种执行框架(直接对话、Codex、Claude Code)的 52 个测试单元中,SkillOpt 全部取得最佳或并列最佳,相比无技能基线在 GPT-5.5 上平均提升 19.1-24.8 个百分点。迁移实验表明,优化后的技能在不同模型规模、执行环境和相近数学基准间仍保持价值。
推荐理由:SkillOpt 解决了智能体技能无法像深度学习权重那样可靠优化的问题,做智能体开发或技能自动生成的团队可以直接用这套方法替代手工调参,效果显著且部署零开销。
10:00
10:00
arXiv cs.LG@Robin Deuber, Lanlan Yang, Michal Bechny, Christoph Heck, Matthias Pfäffli, Matthias Bantle, Florian von Wangenheim, Elgar Fleisch, Wolfgang Weinmann, Manuel Günther, Felix Wortmann, Varun Mishra 一项新研究利用市售智能手表的加速度计和心率变异性数据,检测酒精导致的驾驶损伤。研究在封闭测试轨道上进行了随机对照实验(n=54),训练了逻辑回归和1D卷积神经网络模型。CNN模型检测任何酒精摄入的AUROC为0.88,检测超过WHO推荐限值(0.05 g/dL)的AUROC为0.86。这是首个在真实车辆中验证、并严格评估对未见参与者泛化能力的智能手表酒驾检测系统。该成果展示了可穿戴设备在规模化预防酒精相关交通事故中的潜力。
推荐理由:这项研究把智能手表从健康监测延伸到公共安全领域,做可穿戴设备或交通安全研究的团队值得关注——它证明了消费级硬件也能做高精度酒驾检测,无需额外车载设备。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。