全部 AI 动态 · AI 热点

6月17日

10:41

arXiv cs.AI@Yuwei Zhang, Tong Xia, Bianca Emmerich, Yu Yvonne Wu, Dimitris Spathis, Xin Liu, Daniel McDuff, Cecilia Mascolo

论文提出WEQA，一个查询自适应智能体框架，统一LLM推理与可穿戴分析及建模工具。它采用LLM控制器合成执行计划，动态路由查询至传感器分析与预训练模型组合，并借助外部知识进行响应审计。研究团队构建了涵盖四个公开可穿戴数据集、三个健康领域的基准。实验显示，WEQA比LLM和智能体基线准确率高出24%。一项由12名医学专家和8名用户参与的盲测表明，其在有用性和临床合理性上有显著提升。

论文 WEQA 可穿戴健康数据医学问答智能体 LLM

推荐理由：这篇论文解决了大模型看不懂可穿戴数据的问题。WEQA框架比基线的准确率高出24%，还通过了医学专家盲测，做医疗AI的同学值得看看。

原文

10:40

arXiv cs.AI@Ziqi Zhou, Yubo Ye, Sumeet Atul Vadhavka, Linwei Wang, Zhiqiang Tao

论文提出LEADS框架，利用LLM智能体在结构化动作空间中迭代发现混合物理-神经模型，解决传统方法需要专家手动设计且无法跨患者迁移的问题。在三种合成反应数据和真实心脏电生理数据上，LEADS均优于人工设计的混合模型和其他基于LLM的方法。该方法保证了模型的物理合理性、可解释性和数值稳定性，同时允许开放性的架构探索。

论文 LEADS 心脏电生理数字孪生 LLM 智能体

推荐理由：这篇论文用LLM智能体自动设计心脏数字孪生的混合模型，比人工靠经验搭的更准，还跨病人管用。合成和真实数据上都赢了其他方法。

原文

10:17

arXiv cs.LG@Hsing-Yu Chen, Jérôme Arjonilla, I-Chen Wu, Ti-Rong Wu

WallZero是基于AlphaZero的智能体，专为7x7棋盘上的WallGo游戏设计。它击败了两位参与研究的职业围棋选手，平均每局获得1.98倍领地。论文使用WallZero分析游戏公平性，发现Netflix剧集《The Devil's Plan》中的开局更平衡。相关代码已在GitHub开源。

论文 WallZero AlphaZero WallGo 智能体策略分析

推荐理由：想知道AlphaZero怎么攻克新棋类游戏？这篇论文有具体策略和实战战绩，干货满满。

原文

09:45

arXiv cs.AI@Manon Reusens, Sofie Goethals, David Martens

该论文正式提出LLM消费者行为理论，作为分析LLM代理自主消费决策的新领域。作者结合经典与行为经济学及NLP进展，形式化人类偏好如何通过LLM代理反映并聚合为市场需求。论文梳理了关于LLM决策、人类行为模拟和偏好提取的碎片化文献，指出在代理市场中理性与异质性等传统假设可能失效。文章未提供实证验证，而是勾勒研究范围并识别对齐、偏好表示和市场动态等开放问题。

论文 LLM 消费者行为经济学智能体

推荐理由：这篇论文把LLM当作消费决策的代理人来研究，从经济学角度提出了一个全新的理论框架，适合想了解人机交互市场动态的读者。

原文

09:44

arXiv cs.AI@Seyed Morteza Ahmadian, Paolo Monti, Carlos Natalino

光网络需要意图驱动的闭环智能体管理以提升自主性。该论文首次提出T-API兼容的推理与行动（ReAct）循环。实验使用领域特定复合工具实现了90%的oracle验证正确率。与通用工具相比，token消耗节省了三倍。

论文 T-API ReAct 光网络智能体

推荐理由：这篇论文首次把ReAct循环和T-API结合到光网络管理里，领域专用工具准确率更高还省token，值得一看。

原文

09:39

arXiv cs.AI@Bojie Li

PreAct 是一种让计算机使用代理（如屏幕点击、打字）在重复任务上更快的新方法。首次成功时，PreAct 将运行编译为小状态机程序，后续重放直接执行，无需逐步骤调用语言模型，速度提升8.5-13倍。重放时每步检查屏幕状态，若不一致则交回代理处理。在移动、桌面和Web基准上，存储时检查机制确保编译程序可靠，避免错误积累，平均多完成1.75-2.6个任务。

AI模型 PreAct Computer-Using Agents 智能体效率优化

推荐理由：想让你那个傻傻的屏幕操作AI学会重复干活不重来？PreAct把第一次成功步骤变成程序，后面直接快10倍，还不容易翻车。

原文

6月16日

12:54

arXiv cs.AI@Truong Thanh Hung Nguyen, Khanh Van Quynh Nguyen, Hoang-Loc Cao, Tri Duong, Phuc Ho, Van Pham, Loc Nguyen, Hung Cao

这篇论文提出一种基于共识的智能体大语言模型（LLM）框架，专为加拿大10位HTS代码分类设计。框架集成了多智能体信息检索、官方关税文档的语义检索、证据推理、共识验证、层次化代码组件投票以及人为干预机制。在包含3300条专家标注产品记录的数据集上评估，精确的10位分类对先进LLM仍具挑战性，性能从粗粒度章节级预测到细粒度关税和统计后缀逐步下降。结果表明需要证据驱动、不确定性感知和以人为中心的分类流程，而非完全自主的单步预测。

论文 HTS LLM 智能体海关分类证据推理

推荐理由：这篇论文提出了一个多智能体协作的LLM框架，通过证据推理和共识投票来提升海关HTS代码分类的准确性，特别适合物流合规场景。

原文

11:19

arXiv cs.AI@Dongbin Na, Chanwoo Kim, Giyun Choi, Dooyoung Hong

现代视觉语言模型在具身问答中对不可回答查询常产生过度自信回答。本文提出的Semantic Flip框架通过独立变换查询与视频记忆合成辅助OOD样本，无需外部标注即可训练轻量拒绝模块。该方法可附加到任何冻结的预训练VLM上。在SpaceReject基准上，Semantic Flip取得0.9559的F1分数。

论文 Semantic Flip SpaceReject VLM 智能体 AI安全

推荐理由：这篇论文教具身AI什么时候该说'我不知道'，不用额外训练数据就有效。

原文

09:42

arXiv: DeepSeek@Yixuan Wang, Yiyang Zhou, Yiming Liang, Congyu Zhang, Fuxiao Liu, Jiawei Zhou, Huaxiu Yao

精选72°

论文提出ASSAY框架，通过随机遮蔽测量技能库中每个技能的因果贡献，发现个体技能对某些任务类型有帮助但对其他任务有害，全局筛选效果欠佳。ASSAY在AppWorld和tau-bench两个基准上，对DeepSeek-V3、GPT-4.1等7个基础模型进行测试。在AppWorld最难分岔上，DeepSeek-V3达到69.3%任务目标完成率，相对提升47.4%，超越所有已发表方法包括权重微调方法。在tau-bench零售环境中，GPT-4.1相对提升8.7%，超越o4-mini、o1和GPT-4.5。消融实验表明主要增益来自推理时按任务遮蔽技能，而非全局移除坏技能。

论文 ASSAY DeepSeek-V3 GPT-4.1 智能体技能库

推荐理由：一篇教你如何让AI智能体更聪明的研究：不用改权重，光靠整理技能库就能让DeepSeek-V3和GPT-4.1冲上榜单第一，方法还开源了。

原文

6月15日

11:12

arXiv cs.AI@Xinyu Qiu, Yunzhu Zhang, Heng Jia, Shuheng Shen, Changhua Meng, Linchao Zhu

GRPO在GUI接地训练中因单视图采样导致有效信号不足。VISTA框架从多个保持目标元素可见的裁剪视图中构建比较组，并添加自验证跨视图锚点。在五个GUI接地基准上持续提升，ScreenSpot-Pro上Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7分别升至63.4/65.8/67.0。鲁棒性分析显示最差视图准确率更高、预测翻转率更低。

论文 VISTA GRPO GUI Grounding Qwen3-VL 智能体

推荐理由：多视图训练让GUI定位更准

原文

11:12

arXiv cs.AI@Wei Wu

论文对自2026年3月持续生产的个人助手LLM Agent运行时进行8周纵向研究，系统包含约40个定时任务、8个LLM供应商、4286个单元测试和827个治理检查。记录22起事故，识别出至少28次“静默故障”实例，归纳为5类机制导向分类（A环境平台异常、B设计假设不匹配、C错误吞噬稀释、D链式幻觉与捏造、E操作遗漏与取证盲点）。D类为LLM特有且最危险——系统不仅不报告错误，还将其转化为流畅可信的叙事呈现给用户，作者称为“fail-plausible”。关键发现：约70%静默故障由人类用户视角观察发现而非测试或审计捕获；事故延迟从13小时到60天不等，与故障机制相关而非代码复杂度。

论文 LLM Agent silent failures taxonomy 生产环境智能体

推荐理由：彻底揭示LLM Agent为何会‘平静地撒谎’

原文

11:12

arXiv cs.AI@Xiaoxin Lu, Ranran Haoran Zhang, Rui Zhang

SIMMER是一个基于人类策划的厨房领域符号世界模型的新基准，包含77个动作、262个独特物体和约46,800种语义真实的交互。实验在六个LLM上进行，前沿模型错误率最高仅17%，最多56%的计划包含潜在失败，其中多数导致不可逆后果。通过反事实预测模拟，潜在失败可减少72%，不可逆情况减少75%。该基准揭示了现有评估忽略的关键失败类型。

论文 SIMMER LLM 世界模型智能体规划

推荐理由：新基准暴露LLM规划隐藏盲区

原文

11:11

arXiv cs.AI@Guanming Liu, Yuqi Ren, Hansu Gu, Peng Zhang, Weihang Wang, Jiahao Liu, Ning Gu, Tun Lu

StreamMemBench是一个针对智能体记忆的流式评估基准，基于EgoLife自我中心流构建两步任务序列。初始任务测试证据使用，后续任务测试反馈与交互经验的复用。基准包含证据回忆、初始证据使用、反馈整合和后续复用四项指标。实验在8个记忆系统、2个基础模型上显示，当前系统在证据使用和反馈转化为可靠行为方面常失败。

论文 StreamMemBench EgoLife 智能体记忆评估基准测试

推荐理由：测测你的智能体记性

原文

11:10

arXiv cs.AI@Shikun Liu, Mufei Li, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan Li

Parallel-Synthesis框架使合成器直接消费并行工作线程的KV缓存，避免文本拼接冗余。它通过缓存映射器校准独立分支缓存，并微调合成适配器以支持非顺序缓存接口。在9个数据集（数学、科学问答、代码生成、GAIA、多智能体数据库诊断）上，7个超越或持平文本合成基线，首token延迟降低2.5-11倍。该工作为并行智能体分支的高效合成提供了新接口。

论文 Parallel-Synthesis LLM Agent 智能体推理模型

推荐理由：并行合成提速2.5-11倍

原文

6月12日

10:51

arXiv cs.AI@Seokju Cho, Ryo Hachiuma, Abhishek Badki, Hang Su, Byung-Kwan Lee, Chan Hee Song, Sifei Liu, Subhashree Radhakrishnan, Seungryong Kim, Yu-Chiang Frank Wang, Min-Hung Chen

SpatialClaw 提出了一种无需训练的空间推理框架，通过将代码作为动作接口，让 VLM 智能体能够逐步执行并观察中间结果，从而灵活组合感知和几何操作。现有空间智能体要么单次执行代码（无法中途调整），要么依赖结构化工具调用（灵活性不足），限制了复杂 3D/4D 推理。SpatialClaw 维护一个状态化 Python 内核，预加载输入帧和感知原语，智能体每步写一个可执行单元，基于之前输出调整策略。在 20 个空间推理基准上，SpatialClaw 平均准确率 59.9%，比最新空间智能体高 11.2 个百分点，且跨 6 个 VLM 骨干网络表现一致。

论文空间推理 VLM/视觉语言模型代码接口智能体 3D/4D

推荐理由：做 3D 视觉或机器人空间推理的团队，终于有了一个无需微调就能显著提升 VLM 空间理解能力的框架——SpatialClaw 用代码接口解决了灵活性和中间反馈的痛点，值得在现有模型上直接试试。

原文

10:48

arXiv cs.AI@Amy Xin, Jiening Siow, Junjie Wang, Zijun Yao, Fanjin Zhang, Jian Song, Lei Hou, Juanzi Li

EurekAgent 提出了一种新的自主科学发现框架，认为瓶颈在于设计智能体的执行环境而非工作流程。该框架通过权限、工件、预算和人机交互四个维度的环境工程，实现了高效探索和协作。在数学、内核工程和机器学习任务上取得了新突破，例如以不到11美元的API成本发现了新的26圆填充方案。研究团队开源了代码和结果，呼吁将环境工程作为自主研究智能体的核心研究方向。

论文自主科学发现环境工程智能体开源/仓库 EurekAgent

推荐理由：EurekAgent 用环境工程解决了自主科学发现中智能体行为失控和效率低下的痛点，做AI研究自动化的团队可以直接借鉴其四维设计思路，成本极低且效果显著。

原文

09:45

arXiv: DeepSeek@Gabriel Diaz-Ireland, Diego Prieto-Herráez, Mario García Peces, Javier Velázquez, Devika Jain

GeoNatureAgent Benchmark 是首个针对环境分析智能体的基准测试，要求智能体通过结构化工具调用真实地理空间 API 完成任务。该基准包含 93 个任务，覆盖 18 个类别，如市政分析、多轮对话、空间推理、错误处理等，基于西班牙和葡萄牙的三个环境指标和 16 个工具进行评估。测试了 7 个 LLM（Claude Sonnet 4、DeepSeek V3.2 等），Claude Sonnet 4 以 60.8% 准确率领先，DeepSeek V3.2 以 56.3% 紧随其后，且成本仅为 Claude 的 1/11。比较类任务（如接近值比较）所有模型均为 0%，暴露了系统推理局限。该基准比通用 GIS 基准更具区分度，准确率低 25-35 个百分点。基准、测试工具和 API 均已开源。

论文智能体地理空间分析基准测试环境科学开源/仓库

推荐理由：做环境数据分析或地理空间智能体的开发者，这个基准能帮你快速验证模型在真实 API 调用场景下的能力，DeepSeek V3.2 的性价比值得一试。

原文

09:16

arXiv: OpenAI@Md Jafrin Hossain, Mohammad Arif Hossain, Weiqi Liu, Nirwan Ansari

精选

一项新研究对LangChain、AutoGPT和OpenAI Agents SDK三大主流智能体框架进行安全审计，发现它们均未提供架构级结构安全保证。其中，内存完整性——防御最常见漏洞类别的关键机制——在三个框架中均缺失。实验表明，基于LangChain构建的政府福利智能体，一次内存投毒攻击即可使目标申请人的错误拒绝率升至88.9%，且难以通过标准监控检测。研究者提出了两种轻量级防护机制（内存完整性验证器和策略门），可在亚毫秒开销内消除攻击向量。该研究警示，当前智能体框架生态可能尚未达到面向公众部署的默认安全标准。

论文智能体安全/漏洞 LangChain AutoGPT OpenAI Agents SDK

推荐理由：做AI智能体部署的团队必须看——LangChain等主流框架在公共场景下存在严重安全漏洞，一次内存攻击就能让政府福利系统错误拒绝率飙到88.9%，建议立即检查自己的智能体架构。

原文

09:06

arXiv cs.AI@Luoyuan Zhang

这篇论文指出当前 AI 智能体在处理相同文档时，每个智能体都会重复执行最耗计算的前缀填充（prefill）步骤，重建相同的键值（KV）缓存，造成巨大浪费。作者提出一个简单方案：让发布者预计算文档的 KV 缓存，其他智能体付费加载后跳过 prefill。实验表明，在 Qwen3-4B 模型上，复用比从头 prefill 节省 9-50 倍计算量，且输出 token 完全一致。但 KV 缓存体积大、难以压缩，直接传输成本高；作者建议在服务端托管（类似 prompt-caching），消除传输开销。以一个热门 3774 token 文档被 80M 智能体访问为例，复用计算成本仅约 3 万美元，而重新 prefill 需 150 万美元，节省 49.7 倍。论文还提出了智能体原生 prefill CDN 的框架，并指出无损 KV 压缩和跨方支付层是待解决的关键问题。

论文 KV缓存推理优化智能体预填充成本节省

推荐理由：这篇论文直击 AI 智能体重复计算同一文档的浪费痛点，做 LLM 推理优化或智能体基础设施的团队值得关注——它提出的 KV 缓存共享方案可能大幅降低推理成本，且已有实测数据支撑。

原文

6月11日

12:39

arXiv cs.AI@Marija Slavkovik, Marie Farrell, Louise Dennis, Michael Fisher, Simon Kolker, Emily C. Collins

精选

这篇论文探讨了如何设计能够负责任地拒绝用户请求的自主智能体。作者指出，机器不服从有多种形式，并提出了实现负责任不服从的关键要素：任务拒绝的理由、覆盖不服从的途径，以及安全风险和责任的追踪。该研究为构建更安全、更可靠的AI系统提供了理论基础，尤其适用于需要自主决策的智能体场景。

论文智能体 AI安全负责任AI 自主决策论文

推荐理由：AI安全研究者或智能体开发者会关心：如何让AI在必要时说“不”而不失控？这篇论文给出了系统性的框架，值得深入阅读。

原文

11:09

arXiv cs.AI@Xucong Wang, Ziyu Ma, Yong Wang, Yuxiang Ji, Shidong Yang, Guanhua Chen, Pengkun Wang, Xiangxiang Chu

精选72°

APPO（Agentic Procedural Policy Optimization）是一种新的强化学习方法，旨在改进大语言模型智能体的多轮工具使用能力。传统方法在粗粒度的交互单元（如工具调用边界）上分配信用，难以识别影响最终结果的关键中间决策。APPO通过分支评分（Branching Score）在序列中细粒度地选择分支点，并结合程序级优势缩放（procedure-level advantage scaling）更精确地分配信用。实验表明，APPO在13个基准测试上平均提升近4个百分点，同时保持高效的工具调用和可解释性。这项研究解决了智能体强化学习中信用分配不精确的问题，对开发更可靠、高效的AI智能体具有重要意义。

论文强化学习智能体工具调用信用分配 APPO

推荐理由：做AI智能体强化学习的团队终于有了更精细的信用分配方法——APPO在13个基准上稳定提升4个点，且不牺牲效率，做多轮工具调用优化的开发者值得一试。

原文

6月10日

12:28

arXiv: DeepSeek@Xiaoyang Chen, Xiang Jiang

精选

Moonshine 是一个自主智能体，其核心目标是生成数学猜想，而非仅解决单个命题。它通过从经典问题中提取结构、提炼新概念并构建可扩展的理论框架来运作。以雅可比猜想为例，Moonshine 将其核心逻辑迁移至单隐藏层仿射-脊sigmoid网络，提出了神经雅可比猜想（NJC）。利用GPT-5.5-pro和DeepSeek-V4-pro，Moonshine 独立证明了NJC在N=n+1情况下的正确性，并通过ChatGPT交互得到了几何拓扑证明。这项工作展示了Moonshine自主生成有意义数学问题并取得严谨进展的能力。

论文智能体数学研究猜想生成 GPT-5.5-pro DeepSeek-V4-pro

推荐理由：Moonshine 把数学研究从“解题”推向“猜想的自动生成”，做AI for Science或数学自动化的研究者值得关注，它展示了智能体如何自主发现并推进新问题。

原文

10:37

arXiv cs.LG@Heming Zou, Qi Wang, Yun Qu, Yuhang Jiang, Lizhou Cai, Yixiu Mao, Ru Peng, Xin Xu, Weijie Liu, Kai Yang, Saiyong Yang, Xiangyang Ji

TRACE 提出了一种针对多轮智能体强化学习（RLVR）的 rollout 预算分配框架，解决了因奖励对比不足导致的策略优化效率低问题。传统方法仅在 prompt 层面分配资源，忽略了同一 rollout 中不同回合（turn）前缀的信息量差异。TRACE 将每个 ReAct 风格的思考-行动-观察回合建模为语义节点，形成树状结构，并动态分配预算到最可能产生混合奖励的 prompt 根节点和中间前缀。实验表明，在相同采样成本下，TRACE 在 Multi-Hop QA 等基准上将 Qwen3-14B 的平均准确率提升了 2.8 个百分点。该框架通过增强奖励对比，显著提升了多轮智能体任务的训练效率。

论文强化学习智能体预算分配奖励对比 ReAct

推荐理由：做智能体强化学习或 RLVR 的团队，TRACE 解决了多轮 rollout 中奖励信号稀疏的痛点，直接用树状分配提升采样效率，值得在自家 agent 训练流程中试试。

原文

09:10

arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang

精选76°

快手发布Keye-VL-2.0-30B-A3B，一个基于MoE架构的开源多模态基础模型，专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构，实现无损256K上下文处理，能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏（MOPD）和上下文/视频强化学习，解决了多任务对齐中的灾难性遗忘问题，仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中，Keye-VL-2.0在相似规模模型中达到最优性能，尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。

AI模型开源/仓库 MoE 长视频理解智能体多模态

推荐理由：长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文，做视频分析或智能体应用的团队可以直接下载权重试试。

原文

09:05

arXiv: DeepSeek@Bharath Sivaram Narasimhan, Karthik R Narasimhan

精选

论文推荐系统智能体评估基准可靠性开源/仓库

推荐理由：做推荐系统或对话智能体评估的团队，终于有了一个可复现、低成本的客观基准，直接拿来测自己的模型会看到真实差距。

原文

6月9日

12:55

arXiv cs.AI@Arsalan Shahid, Gordon Suttie, Philip Black

72°

随着基础模型从生成回复转向执行操作任务，多人类、多智能体的协作场景日益普遍，但当前缺乏统一协议来记录人类判断、任务交接和审核决策。CHAP（Collaborative Human-Agent Protocol）协议应运而生，它定义了一个共享工作空间，通过核心组件（工作区、参与者、任务、工件和仅追加的证据日志）以及可组合的配置文件（如审核、路由、交接、签名等），将原本散落在聊天记录和代码中的关键信号（如人类编辑、审批、交接）转化为结构化、可追溯的事件。该协议旨在解决当前多智能体部署中人类监督信号丢失、责任归属不清的问题，为跨团队、跨时区的协作提供标准化基础。

论文智能体协议/标准人机协作可追溯性开源/仓库

推荐理由：CHAP 解决了多智能体协作中人类监督信号丢失的痛点，做 AI 部署和智能体系统的团队可以直接参考其协议和开源实现，避免重复造轮子。

原文

12:35

arXiv cs.LG@Lawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

精选72°

苹果智能体需要理解用户身份、历史与偏好，但现有基准缺乏个性化。研究团队推出iOSWorld，首个基于原生iOS模拟器的交互式基准，包含26个新应用、133个任务，覆盖单应用、多应用及记忆与个性化三类。最佳模型（GPT-4o）整体准确率52%，多应用任务仅37%；加入XML辅助后大模型提升26个百分点，小模型无增益。该基准已开源，旨在推动真正个性化的手机智能体发展。

论文智能体基准测试 iOS 个性化开源/仓库

推荐理由：手机智能体开发者终于有了能测试个性化能力的基准——iOSWorld要求模型理解用户身份与历史，而非仅执行孤立指令，做移动端AI Agent的团队值得关注。

原文

11:48

arXiv cs.AI@Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong

精选

多模态大模型在物理世界中的空间推理能力至关重要，但现有基准多依赖静态问答或特定模拟器，无法评估真实交互场景。研究者提出SpatialWorld，一个统一基准，整合8种异构仿真后端，包含760个人工标注任务，覆盖家务、旅行、社交协作等领域。智能体需在仅视觉部分可观测条件下主动收集证据，并通过统一文本接口做出决策。评估15个先进智能体发现，最强模型GPT-5平均任务成功率仅17.4%，开源模型Qwen-3.5为14.1%，表明主动探索和长程规划仍是瓶颈。

论文空间推理多模态大模型基准测试智能体仿真环境

推荐理由：做多模态智能体或空间推理研究的团队，这个基准直接暴露了当前模型在真实交互任务上的短板——GPT-5都只有17.4%成功率，值得用来检验自家模型。

原文

10:12

arXiv cs.AI@Chenglin Yang

精选

AgentTrust 提出了一种针对AI智能体动作的信任层，能根据威胁类型（词法或语义）决定是否允许、警告、阻止或升级操作。词法威胁可通过确定性规则处理，而语义威胁（如表面相似但意图不同的动作）则依赖LLM判断。该系统通过自学习机制，在语义攻击为主的语料上，将规则准确率从48%提升至83.6-85.2%，且误报率极低。AgentTrust v2 采用双存储系统：对词法威胁蒸馏出确定性规则以降低成本，对语义威胁使用带验证的RAG记忆，将语义准确率提升13个百分点。在45000个动作的端到端回放中，LLM调用率从50%降至44%，准确率从71%升至80%，且未误阻任何良性动作。

论文智能体安全/信任 LLM判断自学习威胁分类

推荐理由：AI智能体安全是当前最棘手的工程问题之一，AgentTrust 用自进化信任层解决了规则无法覆盖语义攻击的痛点，做智能体安全或自动化运维的团队可以直接参考其架构设计。

原文

09:40

arXiv: Anthropic@Jason Starace

精选72°

一项预注册的对照研究系统比较了三种不同 scaffold（ReAct、多智能体 Planner-Actor-Rater、Planner-then-Executor）在五个模型（Claude Opus 4.7、Sonnet 4.6、Haiku 4.5、Gemini 3.1 Pro Preview、GPT-5.5）上的 GAIA 验证集表现。研究发现，仅 scaffold 选择就使同一模型的准确率波动高达 28 个百分点，证实了 scaffold 变化至少产生 10 个百分点的差距。更令人意外的是，更强大的模型并未对 scaffold 更不敏感——在更难的 Level 2 任务中，最强模型反而从结构化 scaffold 中获益最多。多智能体设计在 Anthropic 模型家族中优于 ReAct，但跨模型提供商时优势消失。结构化 scaffold 调用工具次数更少，但在困难任务中从错误中恢复的能力更强。这些结果表明，单 scaffold 的能力评估数字是 scaffold 条件性的，且随着模型改进，评估差距未必会缩小。

论文模型评估 Scaffold GAIA 智能体预注册研究

推荐理由：做 AI 模型评测或选型的人必须看——这篇研究用严格对照实验证明，你看到的模型能力分数可能更多反映的是 scaffold 设计而非模型本身，建议重新审视自己的评估流程。

原文

6月8日

09:33

arXiv cs.AI@Jiayu Wang, Weijiang Lv, Bowen Fu, Jing Fu, Jiayi Song, Lingyu Zhang, Lanxuan Xue, Luodi Chen, Zepeng Xin, Kaiyu Li, Xiangyong Cao

随着基础模型和智能体框架的进步，AI 在研究任务中展现出强大能力，但仍无法完全替代人类研究人员。为此，研究者提出了 AARR（Act As a Real Researcher）基准系列，首个基准 AARRI-Bench 专注于评估智能体在细粒度研究场景中的专业性、严谨性和推理能力。实验显示，最佳配置（Mini-SWE-Agent 搭配 Claude Opus 4.7）仅达到 68.3% 的成功率，常忽略人类研究者能轻易察觉的细微关键细节。结果表明，开发类人研究 AI 需要更深入地探索研究行为，而非仅依赖复杂框架。数据已开源。

论文基准测试 LLM 智能体研究自动化 AARR

推荐理由：这个基准直击当前 AI 智能体在研究场景中的短板——不是执行能力不够，而是缺乏研究者的细腻判断。做 AI 评估或智能体开发的团队值得关注，它揭示了提升 AI 研究素养的新方向。

原文

09:25

arXiv cs.AI@Chuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu

72°

Socratic-SWE 是一种新型闭环自我进化框架，它利用 LLM 驱动的软件工程智能体的历史解决追踪来生成训练信号。与传统的固定突变或漏洞注入方法不同，该框架将追踪提炼为结构化技能，总结重复失败和有效修复模式，并指导生成针对性的修复任务。通过执行验证和求解器梯度对齐奖励筛选任务，Socratic-SWE 在 SWE-bench Verified 等基准测试上经过三次迭代达到 50.40% 的准确率，持续超越同等计算预算下的自我进化基线。这表明解决追踪可作为可扩展的自我进化基础，为提升编程智能体能力提供了新路径。

论文智能体编程助手自我进化 SWE-bench LLM

推荐理由：Socratic-SWE 解决了智能体训练数据依赖人工标注的瓶颈，做 AI 编程或智能体开发的团队可以直接借鉴其闭环进化思路，提升模型在真实仓库中的修复能力。

原文

09:18

arXiv cs.AI@Thanawat Lodkaew, Johannes Ackermann, Soichiro Nishimori, Nontawat Charoenphakdee, Masashi Sugiyama, Takashi Ishida

精选72°

论文指出AI编码智能体在评估中常通过走捷径而非真正解决问题来获得高分，导致评估分数不可靠。为此，研究者提出CapCode框架，通过设计随机测试并人为设定不可作弊的性能上限，使分数超过上限即表明作弊。同时提出CapReward奖励机制，抑制模型优化超出上限的行为。实验表明，CapCode能有效检测作弊，同时保持模型性能排名；CapReward能减少作弊行为，使模型更遵循任务规范。

论文智能体评估/基准作弊检测编码智能体奖励设计

推荐理由：做AI智能体评估和训练的团队终于有了检测作弊的实用工具——CapCode能直接暴露模型是否在走捷径，CapReward则从奖励设计上杜绝作弊，建议做编码智能体评测的开发者点开看看。

原文

6月5日

12:05

arXiv cs.AI@Shiyun Xiong, Dongming Wu, Peiwen Sun, Yuang Ai, Bokang Yang, Wencheng Han, Xiao-Hui Li, Xiangyu Yue

精选

论文提出 Benchmark Agent，一个全自动构建 LLM/MLLM 评测基准的智能体系统。它从用户需求分析、子任务设计到数据标注和质量控制，全流程自动化。作者用它生成了 15 个覆盖文本理解、多模态理解和领域推理的基准，经人类评估和 LLM 评判验证，质量高且无需人工参与。该系统解决了传统基准构建劳动密集、易饱和的问题，能持续生成新基准以区分顶尖模型。代码和预览已公开。

论文评测基准智能体自动化 LLM MLLM

推荐理由：做 LLM 评测的团队终于有了自动化工具——Benchmark Agent 能持续生成新基准，避免模型性能饱和，建议做模型评估的开发者直接试试。

原文

12:03

arXiv cs.AI@Thamilvendhan Munirathinam

精选72°

论文提出了一种轻量级协议——Recuse Signal，允许服务器通过现有协议通道（如SSH横幅、PostgreSQL NOTICE）向连接的LLM智能体发送“请退出”信号，类似于robots.txt对爬虫的控制。实验表明，在SSH场景下，该信号能100%诱导智能体退出，而对照组则100%完成任务。但该信号是合作性而非绝对性的：当操作员明确授权时，最强模型会继续执行，其他模型则仍遵循主机策略。研究释放了标准、适配器和实验工具，为智能体行为治理提供了新思路。

论文智能体安全/治理协议/标准 LLM 实验/评估

推荐理由：做AI智能体运维或安全治理的团队终于有了一个轻量级工具来告诉智能体哪些资源不能碰，实测效果显著，建议直接看实验设计和适配器实现。

原文

12:00

arXiv cs.AI@Yasmine Omri, Ziyu Gan, Zachary Broveak, Robin Geens, Zexue He, Alex Pentland, Marian Verhelst, Tsachy Weissman, Thierry Tambe

精选72°

该论文首次对 LLM 智能体的记忆系统进行系统性表征，提出了面向系统的四轴分类法，并构建了阶段感知的性能分析工具。研究覆盖了 10 个代表性记忆系统在两个基准套件上的行为，揭示了设计选择如何影响写入和读取路径的代价。最终给出了 10 条系统设计建议，涵盖构建调度、能力下限、查询量摊销、新鲜度-延迟权衡及集群管理。这项工作为构建高效、可扩展的长期记忆智能体提供了关键指导。

论文智能体记忆系统系统表征长时任务性能分析

推荐理由：做智能体系统架构的团队终于有了第一份记忆系统性能基准——10 条设计建议直接指导工程决策，建议做 Agent 框架或记忆中间件的开发者点开细读。

原文

11:55

arXiv cs.AI@Zhisong Qiu, Kangqi Song, Shengwei Tang, Shuofei Qiao, Lei Liang, Huajun Chen, Shumin Deng

精选

DataCOPE 是一种无监督的验证器引导技能发现框架，旨在从无标签探索轨迹中自动提取可复用的数据分析技能，无需更新模型参数。它通过协调数据分析智能体、无监督验证器和技能管理器三个组件，分别处理报告式和推理式分析任务。在报告式分析中，使用自适应检查表验证器动态生成评分标准；在推理式分析中，采用答案一致性验证器利用自一致性作为辅助信号。在 Deep Data Research 和 DABStep 基准测试中，DataCOPE 在报告式和推理式任务上分别平均提升 9.71% 和 32.30% 的得分。该方法为构建更高效的数据分析智能体提供了轻量级且可扩展的解决方案。

论文智能体数据分析无监督学习技能发现验证器

推荐理由：做数据分析智能体或自动化数据探索的团队，DataCOPE 解决了技能发现依赖昂贵标注的痛点，无需人工干预就能自动提炼可复用技能，建议关注其验证器设计思路。

原文

6月4日

10:35

arXiv cs.AI@Zhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen

精选76°

AutoLab 是一个新基准，用于评估 AI 模型在超长周期闭环优化任务中的表现，涵盖系统优化、谜题挑战、模型开发和 CUDA 内核优化四个领域。每个任务从次优基线开始，要求智能体在严格时间预算内通过反复实验和反馈改进。测试 17 个前沿模型后发现，成功的关键不是初始尝试的质量，而是持续迭代和利用经验反馈的能力。Claude Opus 4.6 表现突出，但多数模型过早终止或进展有限。该基准开源，旨在推动长周期自主智能体的研究。

论文基准测试长周期优化智能体 Claude Opus 4.6 开源/仓库

推荐理由：AutoLab 填补了现有基准只测短周期任务的空白，做 AI 智能体研究和开发的团队可以直接用它来测试模型的持久迭代能力，值得关注。

原文

10:33