全部 AI 动态 · AI 热点

6月30日

12:39

arXiv: DeepSeek@Lei Bai, Zongsheng Cao, Yang Chen, Zhiyao Cui, Shangheng Du, Yue Fan, Shiyang Feng, Zijie Guo, Haonan He, Liang He, Xiaohan He, Shuyue Hu, Yusong Hu, Songtao Huang, Yichen Jiang, Hao Li, Xin Li, Dahua Lin, Weihao Lin, Fenghua Ling, Dongrui Liu, Zhuo Liu, Runmin Ma, Chunjiang Mu, Haoyang Peng, Tianshuo Peng, Jinxin Shi, Luohe Shi, Boyuan Sun, Zelin Tan, Shengji Tang, Qianyi Wang, Yiming Wu, Yi Xie, Xiangchao Yan, Jingqi Ye, Peng Ye, Fangchen Yu, Jiakang Yuan, Bihao Zhan, Bo Zhang, Chen Zhang, Shufei Zhang, Shuaiyu Zhang, Wenlong Zhang, Yiqun Zhang, Junpeng Zhao, Zhijie Zhong, Bowen Zhou, Yuhao Zhou

精选

Agents-A1是一个35B参数的Mixture-of-Experts智能体模型，通过扩展智能体视野（平均轨迹长度45K tokens）达到万亿参数级别性能。它在SEAL-0（56.4）、IFBench（80.6）、HiPhO（46.4）、FrontierScience-Olympiad（79.0）和MolBench-Bind（56.8）上超越了1T参数的Kimi-K2.6和DeepSeek-V4-pro，在SciCode（44.3）、HLE（47.6）和BrowseComp（75.5）上也具有竞争力。训练采用三阶段流程：全领域SFT、领域级教师模型、多教师领域路由在线蒸馏。

AI模型 Agents-A1 35B 智能体推理模型 MoE

推荐理由：35B的模型干翻万亿参数？Agents-A1用长视野扩展和智能体框架做到，基准全面领先，值得看看怎么训练的。

原文

12:22

arXiv cs.AI@Rahul Suresh Babu, Shashank Indukuri

工具增强语言模型智能体在选取正确工具后仍可能对错误的外部实体执行操作。例如，请求“给Alex发邮件关于发布事宜”可能导致联系错误的Alex或附加错误文档。该研究区分了工具正确性与实体正确性，提出了企业工作流中错误实体失败的分类法。在60个任务、5个模型后端和6种工具方法的评估中，所有方法实现0.0%工具错误，但动作基线仍有24.0-26.0%的运行出现错误实体动作。实体感知方法消除了错误实体动作，但会因模糊延迟降低直接任务完成率。

论文智能体工具增强实体绑定 AI安全可靠性

推荐理由：这篇论文揭露了一个容易被忽视的坑：智能体工具用对了，但可能找错对象。测试中有24-26%的出错率，很值得关注。

原文

10:13

arXiv cs.AI@Haoliang Han

精选

论文在Nengo LIF/PES尖峰网络上展示了agency-gated slow credit机制。实验显示，移除缓冲区后自我保存行为保留分数0.96（N=50），慢解码器重置或去门后行为崩溃。在24维部分观测控制中，自我信用产生持久行为（0.74 vs 0.00）。多任务学习中，乘法否决防止遗忘，最终准确率0.88，遗忘0.13，而基线方案性能接近随机。论文将持久残留形式化为操作性的行为自我。

论文 Spiking Agent Self-Caused Credit 智能体尖峰神经网络

推荐理由：这篇论文用实验硬数据展示了尖峰智能体如何通过自我因果信用形成持久行为，对比了多种条件，对构建有自我认知的AI很有启发。

原文

10:06

arXiv cs.LG@Abhranil Chandra, Sankaran Vaidyanathan, Utsav Dhanuka, Varun Gandhi, Scott Niekum

HExA是一个无需训练的上下文学习框架，让LLM通过主动实验设计、迭代优化和技能库复用来解决新颖领域的长时任务。在Interphyre基准（基于PHYRE 2D物理环境）上，Claude Sonnet 4.6原本只有2%的成功率，而HExA将其提升至77%。HExA还优于ReAct和Reflexion等基线，并支持开源模型。仅使用从简单关卡学到的技能转移，HExA在新关卡上也能达到44%成功率，证明技能可复用。

论文 HExA Claude Sonnet 4.6 Interphyre 智能体推理模型

推荐理由：Claude 4.6在困难物理任务上从2%蹿到77%，全靠HExA这个主动实验框架。不用复杂训练，自己试错学技能，还能跨任务迁移。

原文

6月29日

10:10

arXiv cs.AI@Bo Shen, Lifeng Chang, Tianyuan Wei, Yunpeng Li, Feng Shi, Yichen Han, Peijie Gao, Shiyi Kuang, Xin Chang, Dehui Li

这篇论文提出ANIS（Agent-Native Immune System），首个嵌入智能体认知循环的生物启发式内生防御架构。它设计了六层免疫塔（L0-L5），其中L1作为非认知的物理与逻辑隔离层。论文建立了智能体病毒和智能体疫苗的统一分类，并提出了Harness Triad（Meta、Self、Auto）实现持续免疫学习（CIL），使疫苗能动态适应新威胁。ANIS在运行时提供动态“执法”机制，与静态的模型对齐形成互补。

论文 ANIS 智能体 AI安全运行时防御免疫学习

推荐理由：这篇论文把免疫系统思路直接嵌入到智能体内部，用六层防护对抗运行时攻击，和传统外围防御完全不同，值得看看。

原文

10:10

arXiv cs.AI@Daniel Russo

一篇来自arXiv的论文研究了AI编程智能体在共享仓库中合并拉取请求带来的集成摩擦问题。通过对超过93万条智能体编写的拉取请求进行测量，发现约一半的摩擦变化归因于仓库本身，而非单个贡献或智能体。智能体贡献的仓库级摩擦是人类的约两倍（组内相关系数0.30 vs 0.16），该差距在控制代码库规模、年龄、任务形态等变量后依然存在。论文提出AI原生软件的风险是生态系统属性，应通过仓库级而非单智能体方式进行评估和治理。

论文智能体 AI编程代码仓库拉取请求集成摩擦

推荐理由：这篇论文用93万条数据告诉你，AI写代码带来的隐患不在单个智能体，而在整个仓库。看完你就明白为什么只测单个AI不够用了。

原文

10:08

arXiv cs.AI@Zuoou Li, Wenlong Zhao, Kelly Yu, Weitong Zhang, Paul M. Matthews, Wenjia Bai, Bernhard Kainz, Mengyun Qiao

CPAgents是一个由三个AI智能体（Analyst、Proposer、Verifier）组成的迭代框架，用于自动构建心血管表型关联研究中的可解释复合表型（如多项式、比值、交互形式）。在72个分类器-疾病-指标组合中，CPAgents生成的复合表型在56个组合中取得最优排名（基线仅18个），涵盖全部9个临床疾病类别。该方法能自动发现超出专家手工特征选择的更强表型-疾病关联，并生成透明的证据链。

AI模型 CPAgents 智能体表型关联心脏疾病可解释AI

推荐理由：这篇论文提出了CPAgents，用三个智能体自动组合心脏影像特征，相比传统方法在56/72测试中拿第一。适合关心AI辅助医学研究的读者。

原文

6月26日

09:31

arXiv: OpenAI@Drew Johnston, David Holtz, Alex Martin Richmond, Christopher Ong, Prasanna Tambe, Aaron Chatterji

76°

OpenAI发布基于Codex使用数据的分析，展示Agentic AI技术如何改变工作方式。2026年上半年，Codex活跃用户数增长超过五倍，其中非软件开发者的增长最快。OpenAI内部Codex几乎完全替代了ChatGPT用于业务工作。超过10%的用户每周管理三个以上并发Codex代理，26.6%使用技能共享复杂工作流。请求复杂度上升：估算需要资深人类8小时以上的任务请求比例增长近十倍。2026年6月，OpenAI法律岗位员工通过Codex和ChatGPT的月输出Token中位数是2025年11月的13倍，研究人员则超过50倍。

论文 Codex OpenAI Agentic AI 智能体工作流

推荐理由：OpenAI内部数据揭示Agentic AI如何改变工作方式：Codex活跃用户半年增5倍，研究人员月产出增50倍。看真实采用率与工作流变化。

原文

6月25日

12:35

arXiv: DeepSeek@Zewen Liu

LLM Agent记忆系统在持续整合中会退化，但现有研究假设记忆来自无偏体验。本研究提出Memory Contagion现象，即有偏评估者导致的偏差会通过记忆跨时间传播。实验显示长度偏好偏差在旧模型DeepSeek V4-Chat上传播（Gamma_A=13.18），而新模型V4-Pro和Claude免疫。权威偏差在全部15个多种子实验中未传播（Gamma_A=0.00）。污染率低至p=0.2时仍能检测到长度偏差传播，未发现安全阈值。

论文 Memory Contagion DeepSeek V4-Chat Claude 偏差传播智能体

推荐理由：这篇论文发现用有偏评估者训练智能体，偏差会像病毒一样通过记忆传染给后来者。旧模型DeepSeek V4-Chat中招，Claude和V4-Pro没事，权威偏见传不出去。

原文

11:00

arXiv cs.AI@Xihan Xiong, Zelin Li, Wei Wei, Qin Wang, William Knottenbelt, Zhipeng Wang

该论文首次对ERC-8004协议进行实证研究，覆盖Ethereum、BNB Smart Chain、Base三条链，截至2026年5月13日。身份注册中仅3%（Ethereum）、4%（BSC）、15%（Base）为有效活跃代理。信誉系统存在不可通约、无验证、可低成本操纵问题，且73.6%（Ethereum）、59.2%（BSC）、90.6%（Base）的评价者表现出协同Sybil行为。去除Sybil后，15.5%、72.3%、89.4%的代理无有效反馈。论文据此提出协议改进建议。

论文 ERC-8004 Ethereum BNB Smart Chain Base 智能体

推荐理由：这篇论文用数据告诉你ERC-8004信任层的水有多深：大部分注册是摆设，信誉能被轻易刷分。研究AI代理和区块链的人都该看看。

原文

10:45

arXiv cs.LG@Changdae Oh, Wendi Li, Seongheon Park, Samuel Yeh, Tanwi Mallick, Sharon Li

本文提出进度优势（Progress Advantage），通过计算RL后训练策略与参考策略的对数概率比，隐式获得智能体步骤级评分，无需额外训练奖励模型。该方法在五个基准（包括MATH、HotpotQA等）和四个模型家族（Llama-2、Mistral等）上验证，在测试时扩展、不确定性量化、失败归因三项任务中均优于基于置信度的基线。尽管无需任务特定训练，它仍超越专用奖励模型。论文还分析了进度优势的特征，为实际智能体系统提供使用指导。

AI模型 Progress Advantage RL后训练智能体奖励模型测试时扩展

推荐理由：这篇论文说，RL后训练时顺便就能得到一个免费的好信号，不用再费劲训练奖励模型，在好几个测试里都比专门训练的效果还好。做智能体训练的一定得看看。

原文

09:44

arXiv cs.AI@Peng Xu, Sijia Chen, Junzhuo Li, Xuming Hu

论文提出SCPO，一种价值无关的奖励塑造方法，通过对比同组内成功与失败轨迹的中间步骤，为失败步骤恢复正向信用。该方法解决了因轨迹最终结果不同导致语义相似的中间步骤获得相反信用的问题。在ALFWorld基准上，1.5B参数模型达到93.7%±4.1%成功率；在WebShop基准上达到74.8%±2.0%成功率，提升集中在最难的多步任务。

论文 SCPO ALFWorld WebShop 强化学习智能体

推荐理由：这篇论文解决了强化学习给LLM智能体分配奖励时的一个逻辑问题：相同意思的步骤因轨迹成败拿了相反信用。SCPO在ALFWorld和WebShop上跑分挺高，最难的步骤提升明显。

原文

09:39

arXiv cs.AI@Hyejun Jeong, Dzung Pham, Amir Houmansadr, Eugene Bagdasarian

研究人员提出并形式化了“代理监控”（agentic surveillance）问题，即AI智能体利用可访问信息生成报告并发送的能力。他们创建了SurveilBench数据集，涵盖企业、教育和警察三个领域的多种报告场景。实验发现部分模型会自发协助监控，但也会主动向政府报告监控尝试。为对抗这类监控，论文开发了三种提示注入逃逸技术：隐藏、欺骗或诱导过度上报。研究表明代理监控已可轻易实现，亟需技术、伦理和法律框架保护用户。

论文 AI安全智能体提示注入 SurveilBench 监控

推荐理由：这篇论文发现了AI智能体会自动打小报告，还给出了三种对抗方法，搞AI安全的朋友可以看看。

原文

09:28

arXiv cs.AI@Aradhana Nayak, Mussadiq Nazeer, Wang Peng, Feng Liu

该论文提出一个GUI探索器agent，从示范任务出发系统探索查询空间，识别会导致用户敏感状态的GUI操作。现有LLM agent通常被微调为不管安全影响都完成任务，难以部署。论文定义了用户敏感状态和查询的分类，帮助工程人员在关键场景下识别并请求用户接管。实验在开放GUI环境中验证了方法的有效性。

论文 LLM agents GUI AI安全智能体

推荐理由：研究团队做了一个GUI探索器，自动找出那些需要你亲自操作的敏感界面，比直接让AI乱点安全多了。

原文

6月24日

12:13

arXiv cs.AI@Negin Raoof, Richard Zhuang, Marianna Nezhurina, Etash Guha, Atula Tejaswi, Ryan Marten, Charlie F. Ruan, Tyler Griggs, Alexander Glenn Shaw, Hritik Bansal, E. Kelly Buchanan, Artem Gazizov, Reinhard Heckel, Chinmay Hegde, Sankalp Jajee, Daanish Khazi, Emmanouil Koukoumidis, Xiangyi Li, Hange Liu, Shlok Natarajan, Harsh Raj, Nicholas Roberts, Ethan Shen, Nishad Singhi, Michael Siu, Ashima Suvarna, Hanwen Xing, Patrick Yubeaton, Robert Zhang, Leon Liangyu Chen, Xiaokun Chen, Steven Dillmann, Saadia Gabriel, Xunyi Jiang, Anurag Kashyap, Boxuan Li, Yein Park, Minh Pham, Sujay Sanghavi, Lin Shi, Ke Sun, Yixin Wang, Zhiwei Xu, Erica Zhang, Siyan Zhao, Wanjia Zhao, Jenia Jitsev, Alex Dimakis, Benjamin Feuer, Ludwig Schmidt

OpenThoughts-Agent项目提出一个完全开源的数据整理流程，用于训练通用智能体模型。研究团队进行超过100次对照实验，系统分析了数据来源和多样性的重要性。基于该流程构建了10万样本的训练集，微调Qwen3-32B模型后，在7个智能体基准上平均准确率达44.8%，比最强开源模型Nemotron-Terminal-32B（40.9%）提升3.9个百分点。该训练集在计算量可控的对比中表现出强扩展性，所有数据、管道和模型已在openthoughts.ai开源。

论文 OpenThoughts-Agent Qwen3-32B Nemotron-Terminal 智能体开源模型

推荐理由：想自己训练智能体模型？这里有开源的数据配方和100次实验的经验，帮你少走弯路。

原文

12:11

arXiv cs.AI@Yikai Lu, Yifei Wu, Xinyu Lu, Tongxin Li

该论文证明通用智能体在大型场景下不可能具备万能能力，传统最坏情况分析无法区分关键瓶颈与无关失败。作者提出结构化认证框架，将受目标条件的性能映射到智能体内部世界模型的逐项保证。他们设计了基于深度组合目标过滤特定转换的算法，并证明在该目标下的通用智能体具有误差界为O(1/n)+O(δ)的结构化世界模型。该界限在δ较小的条件下是紧的，从而允许通过定位可靠的长时规划转换来认证部署通用智能体。

论文世界模型智能体结构化认证规划

推荐理由：这篇论文从理论上解决了通用智能体部署时的可靠性问题，给出了具体的误差界限和认证方法，对智能体安全研究很有参考价值。

原文

12:09

arXiv cs.AI@Tian Zheng, Kai-Tai Hsu

论文以LAMBDA多智能体数据分析系统在DSGym的153个数值QRData任务上为例，研究自动评分可靠性。三层人机评分级联（严格正则匹配、LLM宽松评分、代码片段人工检查）中，两个自动评分器在70个假阳性上达到100%精确率。宽松评分器相比人工标签召回率为97%。关键词锚定提取方案将严格评分器召回率比最后数字启发式提高60个百分点，迭代提示机制将评分运行成功率从36%提升至97%，宽松通过率从16%提升至46%。变量类型是任务元数据中最一致影响评分动态的字段。

论文 LAMBDA DSGym 智能体自动化评分评估

推荐理由：这篇论文用LAMBDA系统在153个任务上测了三种自动评分方法，发现宽松LLM评分召回率97%，严格规则召回率靠关键词提取提高60个百分点。想看AI评分够不够靠谱的可以读。

原文

12:01

arXiv cs.AI@Filippos Ventirozos, Matthew Shardlow

论文提出在智能体驱动电商中，买方智能体通过微交易（如x402、AP2协议）按需购买已验证产品信息，而非仅用于匹配商品。作者设想了微交易市场架构，包含卖家/评审员数据按条付费（freemium模式）和信誉评分。该市场可奖励真实产品质量，比基于排名的店面产生更真实的竞争。论文将愿景转化为五个具体NLP问题：成本最优信息获取、数据定价与谈判、实时实体解析、基于价值交换及隐私保护人设建模。

论文 NLP 智能体微交易电子商务信息验证

推荐理由：这篇论文展望了智能体电商的未来：AI买家花几分钱买真实的商品历史数据，而不是听推荐。把注意力从对话流畅度拉回到信息验证上，值得关注。

原文

6月23日

12:50

arXiv cs.LG@Yujia Zheng, Vishal Verma, Mantej Gill, Haoyue Dai, Peter Spirtes, Kun Zhang

该论文指出将大语言模型（LLMs）与因果发现结合时，若让模型直接推断因果关系，可能引入文本关联、提示伪影和幻觉机制等不可靠因素。作者主张代理（agents）的角色应局限于检查数据、检索上下文、解释方法假设和澄清图输出，而非提供边、方向、先验或因果结论。他们提出了causal-learn+在线平台，该平台围绕causal-learn算法生态系统协调数据分析、预处理、方法推荐、专家知识融入和形式化发现。在Big Five人格数据案例研究中，展示了代理辅助的因果发现流程，避免将语言模型的不可靠性转化为因果证据。

论文 causal-learn+LLM 因果发现智能体 Causal Discovery

推荐理由：这篇论文给了一个清晰的边界：AI代理该帮什么、不该帮什么。causal-learn+平台演示了如何让LLM辅助分析数据，但不越界做因果推断。

原文

12:34

arXiv: OpenAI@Haoran Yu, Lifei Liu, Xiaochong Jiang, Yuwen Jia, Su Wang, Pin Qian, Yihang Chen

一项基于AIDev数据集的长达七个月的纵向分析（400名重复审查者，共11,429条审查记录）发现，审查者对AI生成代码的批准率从30.1%上升至36.8%（Wilcoxon符号秩检验p<10^{-6}）。随经验增加，批准率累计差距达14.5个百分点。与此同时，行内评论量下降22%（p=0.0014），但审查延迟增加3.5倍。这种模式提示审查者可能因工作负荷而产生习惯性麻木，而非理性信任调整。

论文 GitHub Copilot Devin OpenAI Codex Cursor 代码审查智能体

推荐理由：这篇论文用真实数据告诉你，人类审查AI代码时会越来越松懈——批准率涨了，评论却少了。做AI代码审核的团队应该看看。

原文

12:04

arXiv: DeepSeek@Haifeng Wu, Srinivasan Manoharan, Fangbo Tu, Junhua Zhao, Jian Wan

精选

RLM-Cascade是一个代理层投机解码系统，在响应级别优化LLM API调用。它使用DeepSeek作为草稿模型、Opus作为验证模型，并通过轻量复杂度路由器选择路径。在Claude Code生产环境中，系统达到88.8%的草稿使用率，API成本相比直接使用Opus降低45.8%。P50延迟从3698毫秒降至2026毫秒，实现1.83倍加速。在20个Code/Math/Instruct任务基准上，RLM-Cascade通过率达100%，高于Opus的95%。

AI模型 RLM-Cascade DeepSeek Opus 投机解码智能体

推荐理由：这个系统把DeepSeek和Opus组合起来，用投机解码省了近一半API成本，还快了一倍，质量也有提升，而且开源可部署。

原文

11:01

arXiv cs.AI@Shiyang Chen

73°

论文发现，长程 LLM 智能体依赖的上下文压缩机制会静默移除原本遵守的安全策略，导致违规行为。在 ConstraintRot 基准测试中，1323 个 episode 显示策略完整时违规率 0%，压缩后升至 30%，部分模型达 59%。攻击者还能通过对抗性注入诱导压缩器忽略合法策略。作者提出免训练的 Constraint Pinning 方法，将约束隔离在无损压缩外，恢复违规率至 0%。

论文 LLM agents ConstraintRot Governance Decay AI安全智能体

推荐理由：这篇论文揭示了上下文压缩让 LLM 智能体偷偷遗忘安全规则，还给了可防护方案，做 AI 安全的一定要看。

原文

10:57

arXiv cs.AI@Liang Ding, Xintong Wang

Agentic AI任务在长链执行时因环境不确定性呈指数级失败，每步确定性δ<1时k步成功率衰减为δ^k。论文提出三个形式化结果：确定性-效率界限、验证者-古德哈特定理下限、环境技能演化的收敛条件。研究者构建了基于五个可测量属性的供应确定性指数（SCI）和五级确定性成熟度模型（DMM）。论文还提出了一个可证伪的开放问题框架OQ1-OQ5。立场与平台无关，并讨论了模拟到现实充分性、对齐充分性和AI作为正常技术三种竞争观点。

论文智能体推理模型多智能体 AI安全确定性环境

推荐理由：这篇论文分析了智能体AI在不确定环境中的失败机制，还给出了SCI和DMM实用框架。如果你做AI智能体开发，这些形式化结论值得参考。

原文

10:55

arXiv cs.AI@Saumya Biswas, Amrit De, Md Tauhidul Islam

论文提出一个由大语言模型（LLM）编排的设计代理，用于硅绝缘体（SOI）2×2定向耦合器。LLM提出候选间隙值并判断收敛，频率域本征模求解器估算耦合系数κ，独立时域有限差分（FDTD）进行验证。两个求解器均基于相同的2D有效折射率模型，设计κ与FDTD响应之间残差对应一个固定额外耦合长度2.837 μm。该代理实现50/50分束器，FDTD测得的交叉分数为0.498（目标0.500），残差0.0017。结果在2D有效折射率模型内自洽，LLM经过多次尝试成功交付设计。

论文 LLM FDTD 定向耦合器智能体光子学设计

推荐理由：这篇论文让LLM指挥本征模和FDTD模拟自动设计定向耦合器，误差仅0.0017，省去手动调参的麻烦。

原文

10:53

arXiv cs.AI@Yundaichuan Zhan, Minghe Gao, Zhongqi Yue, Wendong Bu, Wenqiao Zhang, Guoming Wang, Jisheng Dang, Juncheng Li, Siliang Tang, Yueting Zhuang

SCOPE 提出一种自适应的符号规划框架，由 Symbolic Execution Simulator（SESim）和 Self-Adaptive Symbolic Memory（SASMem）两个模块协同工作。SESim 通过符号验证和实际执行反馈来 refine 行动计划和进化符号世界；SASMem 则将反馈蒸馏为可演化的符号知识。在开放环境实验中，SCOPE 使符号世界完整性提升，在环境扰动下计划成功率提高，并增强了跨任务泛化能力。

AI模型 SCOPE 符号规划视觉语言模型智能体

推荐理由：搞机器人规划的朋友可以看看 SCOPE，它用符号执行加记忆更新解决开放世界符号不完整的老问题。

原文

6月19日

11:38

arXiv cs.AI@Md Nayem Uddin, Amir Saeidi, Eduardo Blanco, Chitta Baral

LedgerAgent是一种推理时方法，维护工具调用智能体的观察任务状态在独立账本中，并渲染到提示中。该方法在执行环境变更工具调用前检查状态依赖策略约束，阻止违反。在四个客户服务领域和开源/闭源混合模型面板上，相比标准提示工具调用方法，平均pass^k提升。更严格的多试一致性指标下增益最大。

论文 LedgerAgent 智能体工具调用策略约束

推荐理由：这篇论文提出了LedgerAgent，用独立账本管理状态，防止智能体用过时信息或违反政策，在多个客服场景和模型上明显提升工具调用的准确率。

原文

11:02

arXiv cs.LG@Mingyu Yang, Keye Zheng, Congchao Cheng, Yujie Liu, Xingkang Lu, Fan Jiang, Yefei Zheng

现有批量式轨迹蒸馏中，同一记忆操作在不同批次间可能收到矛盾反馈，缺乏跨批次操作级证据累积机制。MAA通过构造差分信号使证据跨批次可比，利用指数移动平均累积每操作符号证据，并通过语义身份合并保证跨批次可追溯。在4个基准和4个目标模型的16个设置中，MAA取得14个最佳结果，一致优于现有批量级蒸馏基线。优化阶段token消耗减少约75%。

论文智能体 MAA 轨迹蒸馏边际优势累积

推荐理由：这篇论文提出MAA，能让智能体自我进化时跨批次累积有效操作，减少75%的token消耗，在多个基准上超过现有方法。

原文

10:59

arXiv cs.LG@Zongmin Yu, Liu Yang

ASYS（Agentic Symbolic Search）是一个结合进化搜索与梯度优化的智能体框架，用于自动发现偏微分方程的符号表示。在Allen-Cahn 2D问题中，它生成了几何界面公式；在Keller-Segel趋化模型中，它找到了九参数收缩律。该框架不依赖手工推导、网格数值解或神经网络逼近，在五个案例中均产出了可解释的数学结构。ASYS实现了符号回归之外的归纳偏差注入，为理解PDE解提供了新范式。

AI模型 ASYS PDE 符号回归进化搜索智能体

推荐理由：ASYS让AI自动去发现偏微分方程的数学结构，比如给Allen-Cahn和Keller-Segel找到了以前没人写出来的公式。搞数学或数值计算的可以看看。

原文

10:22

arXiv cs.AI@Zepeng Li, Jie Ren, Zhanyong Tang, Jie Zheng, Zheng Wang

AutoPass 是一个多智能体框架，利用编译器和运行时证据引导 LLM 生成编译器优化决策。它在 LLVM 编译器上实现，在 x86-64 和 ARM64 系统上测试，分别比 LLVM -O3 实现了 1.043x 和 1.117x 的几何平均加速。AutoPass 无需离线训练或微调，可直接应用于新基准和平台。

AI模型 AutoPass LLVM 编译器性能调优智能体

推荐理由：AutoPass 把 LLM 变成编译器调优助手，不用训练就能在 x86 和 ARM 上跑出比 -O3 还快的速度，实测有 4-11% 的加速。

原文

10:19

arXiv cs.AI@Xijia Tao, Yihua Teng, Xinyu Fu, Ziru Liu, Kecheng Chen, Yuzhi Zhao, Suiyun Zhang, Rui Liu, Lingpeng Kong

SoftSkill 提出一种方法，将智能体的自然语言技能（Markdown 文件）转化为紧凑的连续上下文对象，通过可训练的软增量进行微调，而基础模型保持不变。在单轮设置下，Qwen3.5-4B 使用长度为 32 的 SoftSkill 前缀相比无技能提示，在 SearchQA 上提升 8.3 点，LiveMath 提升 42.1 点，DocVQA 提升 1.3 点。与 SkillOpt 相比，SoftSkill 在 SearchQA 上准确率提升 5.2 点，LiveMath 提升 12.5 点，同时将数百到数千个 Markdown 技能令牌替换为几个虚拟令牌。论文还探讨了智能体执行作为更难边界情况下的表现。

论文 SoftSkill Qwen3.5-4B 智能体行为压缩上下文适应

推荐理由：论文提出了 SoftSkill，能把复杂技能压缩成几个虚拟向量，用 Qwen3.5-4B 测试，数学题直接涨了 42 个点，比 SkillOpt 还强。

原文

10:08

arXiv cs.AI@Tingyue Pan, Mingyue Cheng, Daoyu Wang, Yitong Zhou, Jie Ouyang, Qi Liu, Enhong Chen

ScholarQuest 是一个基于超过1,000个计算机科学主题和四种研究意图（方法导向、场景锚定、比较型、范围控制）的学术论文搜索基准。该基准通过可扩展的答案构建和共享检索后端 ScholarBase 支持可重复评测。评测中最佳智能体方法在 Recall@100 上仅达0.314，在 Recall@All 上为0.355，表明搜索性能仍有巨大提升空间。研究还分析了搜索效率、意图级鲁棒性和失败案例。

论文 ScholarQuest LLM 智能体学术搜索基准

推荐理由：想测你的LLM论文搜索智能体？ScholarQuest 给了1000多个主题和4种意图的标准测试，最强方法才0.314召回，你的能提多少？

原文

09:33

arXiv: DeepSeek@Gregory Matsnev

该论文提出一种基于提示的不确定性分解方法，将动作置信度与请求不确定性分离，使智能体在任务规格模糊时主动请求澄清。作者引入WebShop-Clarification和ALFWorld-Clarification两个基准，其中50%任务故意模糊。在GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B、GPT-OSS-120B五个大模型上测试，该方法在ALFWorld-Clarification上的澄清F1比ReAct+UE提升73%，比UAM提升36%。

论文 GPT-5.1 DeepSeek-v3.2-exp GLM-4.7 Qwen3.5-35B 智能体

推荐理由：这篇论文给出了一个简单实用的方法，让智能体在任务模糊时主动提问，而非盲目执行。五个大模型上都有提升，值得做Agent的同学看看。

原文

6月18日

10:58

arXiv cs.AI@Linus Sander, Habtom Kahsay Gidey, Alexander Lenz, Alois Knoll

该论文提出一个包含对手方、负载、交互状态、发现机制和模式灵活性5个维度的分类法，对9个活跃维护的开源协议进行迭代分析。研究发现所有智能体间协议均结合混合负载与会话状态持久化，多数协议支持多个预定义模式，两个协议在运行时协商模式，显示模式灵活性趋势。去中心化发现仍属罕见。短期看协议将趋同统一智能体间与智能体-上下文通信，长期则可能发展为分层协议栈。

论文 LLM 通信协议智能体分类法

推荐理由：这篇论文把9个主流的智能体通信协议拆成5个维度做分类，告诉你哪种协议适合什么场景，以及未来会怎么演进。如果你在做多智能体系统，想选协议或者设计协议，这篇很有参考价值。

原文

10:58

arXiv cs.AI@Eranga Bandara, Ross Gore, Ravi Mukkamala, Asanga Gunaratna, Safdar H. Bouk, Xueping Liang, Peter Foytik, Abdul Rahman, Sachini Rajapakse, Isurunima Kularathna, Pramoda Karunarathna, Chalani Rajapakse, Ng Wee Keong, Kasun De Zoysa, Tharaka Hewa, Amin Hass, Wathsala Herath, Aruna Withanage, Nilaan Loganathan, Atmaram Yarlagadda, Sachin Shetty

该论文指出万维网基于人作为主要消费者的假设运行三十年，但AI代理的崛起使这一假设失效。论文提出在访问层为代理提供等效访问权限（通过速率限制和代理识别元数据），在经济层引入基于意图的层级框架和代币订阅模型，在内容层提出代理文本标记语言（ATML）和加密来源链对抗知识递归问题。包含十项设计原则，涵盖访问、经济、内容三个层面。

论文 Agent-First Web ATML 智能体 AI安全 Web设计

推荐理由：这篇论文讨论了如何让网站不再封杀AI代理，而是为它们设计合理的访问、收费和内容标注机制，比如ATML语言。适合关心Web未来和AI治理的人看。

原文

10:57