全部 AI 动态 · AI 热点

6月30日

11:45

arXiv cs.AI@Tianyu Ding, Aditya Nannapaneni, Bingfan Liu, Ling Zhang

该综述聚焦于“永远在线”的LLM智能体，将其视为持久状态系统，涵盖可检索记忆、任务账本、权限、凭证等。论文提出了六个诊断轴（权威性、范围、可变性、来源、可恢复性、可操作性）和生命周期（写入、验证、组织、检索、行动、更新、遗忘、审计、回滚）。基于435篇论文的编码语料库，发现当前研究集中在状态积累与检索，而忽视治理、恢复与放弃。为此，作者引入了Always-On Evaluation Protocol（AOEP-v0），一种通过评分状态突变和恢复义务来测试治理需求的评估合同。该议程将永远在线智能体与数据库、分布式系统、形式化方法、能力安全和机器遗忘等领域联系起来。

论文 Always-On Agents LLM智能体持久状态治理综述

推荐理由：一篇很扎实的综述，把LLM智能体“一直在线”带来的状态管理问题系统化了。有435篇论文支撑，还提出了自己的评估协议AOEP-v0，适合想深入理解智能体持久化设计的读者。

原文

6月17日

10:46

arXiv cs.AI@Shanda Li, Qiuhong Anna Wei, Jingwu Tang, Valerie Chen, Nihar B Shah, Tim Dettmers, Yiming Yang, Ameet Talwalkar

ReproRepo是一个可扩展的框架，利用GitHub Issues作为监督信号来评估LLM在可重复性审计中的能力。研究基于1149篇近期机器学习论文，测试了四种前沿智能体配置。最佳配置Codex with GPT-5.5能识别约90%论文的至少一个语义相关的真实可重复性问题。分析表明智能体擅长发现表面故障和语义区域，但精确定位仍不足。代码已开源。

论文 ReproRepo GPT-5.5 Codex 可重复性 LLM智能体

推荐理由：这篇论文提出了一个可扩展的框架，用GitHub Issues来测试LLM智能体找论文代码的复现问题，比现有手动基准好很多，值得看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:18

arXiv cs.LG@Buqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu Zhang

TokenPilot提出了一种双粒度上下文管理框架，通过Ingestion-Aware Compaction稳定提示前缀并消除环境噪声，以及Lifecycle-Aware Eviction监控上下文段残余效用。在PinchBench和Claw-Eval基准测试中，TokenPilot在孤立模式下分别降低61%和56%的成本，连续模式下降低61%和87%，同时保持与先前系统相当的性能。该框架已集成到LightMem2中，可访问https://github.com/zjunlp/LightMem2。

论文 TokenPilot LightMem2 缓存管理上下文优化 LLM智能体

推荐理由：想降低LLM智能体长会话的推理成本？看看TokenPilot，它通过智能管理上下文缓存，在三个基准上省了61%-87%的费用，性能还不掉队。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:23

arXiv cs.AI@Alexander Rombach, Chantale Lauer, Nijat Mehdiyev

该论文提出，在受监管行业中，基于LLM的智能体应利用领域内已有的符号结构（如法规、流程模型和合规约束）作为核心架构组件，而非仅作为外部监控。作者提出“合规即构建”范式，与传统的护栏式监控互补，从结构上防止控制流违规，同时保留护栏用于捕获语义错误。论文识别了基础和能力层面的神经符号研究挑战，并呼吁神经符号社区关注这一高影响力领域。

论文神经符号智能体监管流程自动化合规即构建 LLM智能体研究议程

推荐理由：做监管流程自动化的团队会发现，将符号结构嵌入智能体架构比事后监控更可靠，建议研究LLM智能体的开发者关注这一新范式。

原文

09:10

arXiv cs.AI@Kenya Sakka, Wataru Mizukami, Kosuke Mitarai

研究人员提出一个基于大语言模型的自主智能体框架，用于迭代设计高性能量子电路。该框架包含探索、生成、讨论、验证、存储、评估和审查七个组件，形成闭环工作流，结合网络知识获取、文献批评、可执行代码生成和实验反馈。在量子机器学习特征映射和量子化学变分量子本征求解器两个任务上评估，生成的电路在图像分类基准上优于代表性量子特征映射，并在更大量子比特数时超越经典径向基函数核。在七种分子的基态能量估计中，生成的ansatz在满足约束条件下达到与化学启发式和硬件高效构造相当的精度。该工作展示了LLM驱动的智能体系统作为自动量子电路设计的可行范式。

论文量子计算 LLM智能体电路设计变分量子算法自动优化

推荐理由：量子电路设计长期依赖人类专家，这个LLM智能体框架实现了自动化迭代优化，做量子计算或量子机器学习的研究者可以直接参考其闭环设计思路。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

12:42

arXiv cs.AI@Xucong Wang, Ziyu Ma, Shidong Yang, Tongwen Huang, Pengkun Wang, Yong Wang, Xiangxiang Chu

精选

Role-Agent 是一种让单个 LLM 同时扮演智能体和环境的框架，通过自举式协同进化提升性能。它包含两个核心组件：World-In-Agent（WIA）让模型在每次行动后预测未来状态，利用预测与实际状态的对齐作为过程奖励，促进环境感知推理；Agent-In-World（AIW）则分析失败轨迹中的模式，并检索具有相似失败模式的任务，重新调整训练数据分布进行针对性练习。在多个基准测试中，Role-Agent 平均提升超过 4%，解决了传统智能体学习依赖低效交互反馈和静态训练环境的问题。

论文 LLM智能体自举学习过程奖励双角色演进 arXiv论文

推荐理由：做 LLM 智能体训练的团队终于有了一个无需外部环境反馈的自我进化方案——Role-Agent 让模型自己当裁判和教练，平均提效 4%+，值得在复杂任务场景中试试。

原文

11:04

arXiv cs.LG@Weixian Xu, Shilong Liu, Mengdi Wang

精选

EEVEE 是首个支持多数据集测试时提示学习的框架，解决了 LLM 智能体在真实任务流中处理异构输入（来自多个数据集、领域和任务分布）的难题。现有方法多针对单数据集设计，无法应对跨数据集干扰。EEVEE 通过引入路由器将输入划分为任务簇并分配合适提示配置，采用路由器与提示协同进化策略优化。实验显示，在 Qwen3-4B-Instruct 和 DeepSeek-V3.2 上，多基准平均分分别提升 10.38 和 24.32 分，超越 SOTA 方法 GEPA 和 ACE 最高达 37.2% 和 48.2%。

论文 LLM智能体提示学习多数据集测试时学习路由策略

推荐理由：做 LLM 智能体部署的团队终于有了处理真实异构数据流的方案——EEVEE 的提示学习框架能自动适应多任务流，建议做 Agent 落地的开发者关注。

原文

10:30

arXiv: OpenAI@Andrew Bo Liu, Samira Nedungadi, Bryce Cai, Alex Kleinman, Harmon Bhasin, Seth Donoughe

72°

ABC-Bench（Agentic Bio-Capabilities Benchmark）是一个用于评估大型语言模型智能体在生物安全相关任务上能力的基准测试套件。它包含三类任务：编写代码操作液体处理机器人、设计用于体外组装的DNA片段、以及规避DNA合成筛选。所有测试的LLM智能体在三项任务上均超过了人类专家基线水平，但在需要新颖生物信息推理的任务上表现较弱。湿实验验证显示，OpenAI的o4-mini-high模型生成的脚本成功在OpenTrons机器人上组装出预期序列的DNA。该基准旨在量化AI在生物研究中的双刃剑效应——既推动科学进步，也带来新的生物安全风险。

论文生物安全 LLM智能体基准测试 DNA组装双用途技术

推荐理由：这是首个系统评估LLM智能体在生物安全关键任务上能力的基准，做AI安全或生物计算的研究者值得关注——它揭示了当前模型在复制已知协议时很强，但在创新推理上仍有短板。

原文

6月9日

11:52

arXiv cs.AI@Wesley Pegden

精选

Trellis 是一个自动形式化系统，利用 LLM 智能体在确定性约束的工作流中，通过迭代优化自然语言证明，逐步推进 Lean 自动形式化任务。该系统受数学家对“严谨证明”的直觉启发——即证明的任何部分都可以被进一步详细阐述。Trellis 在有限预算下使用通用智能体实现了可靠的自动形式化，其专业化来自“严谨性”含义驱动的工作流，而非特定任务训练。论文还展示了该系统生成的 Ramsey 理论最新突破的端到端 Lean 形式化证明。

论文自动形式化 Lean LLM智能体定理证明工作流

推荐理由：Trellis 解决了自动形式化中可靠性与成本之间的平衡问题，做定理证明或形式化验证的开发者可以直接用这个工作流来生成 Lean 证明，值得关注其开源实现。

原文

10:28

arXiv: DeepSeek@Yishuo Cai, Xingyu Guo, Xuancheng Huang, Jinhua Du, Can Huang, Wenxuan Huang, Wenhan Ma, Yuyang Hu, Aohan Zeng, Jie Tang, Xu Sun

精选

论文提出MemoPilot，一种插件式记忆副驾驶，通过强化学习显式训练记忆更新过程，使冻结的LLM在连续交互中提升性能。该方法将记忆更新建模为多轮决策问题，采用多轮GRPO端到端优化，引入轮次奖励信号和上下文无关的轮级优势估计，实现更精细的信用分配和稳定训练。在多人石头剪刀布和有限注德州扑克两个测试环境中，MemoPilot的Elo评分分别达到1590和1762，超越所有基线记忆方法和包括DeepSeek-V3.2在内的闭源模型。这项工作解决了现有方法依赖手工设计提示规则、难以对齐记忆更新与长期目标的痛点。

论文 LLM智能体记忆更新强化学习测试时学习博弈

推荐理由：做LLM智能体长期部署和持续学习的团队可以关注——MemoPilot用强化学习自动优化记忆策略，比手工调提示更系统，在博弈场景中效果显著，值得在类似任务中尝试。

原文

6月4日

10:56

arXiv cs.AI@Linyao Chen, Qinlao Zhao, Zechen Li, Mingming Li, Likun Ni, Jinyu Chen, Yuhao Yao, Xuan Song, Noboru Koshizuka, Hiroki Kobayashi

AgentMob 提出了一种无需训练的 LLM 驱动智能体框架，用于个体级移动预测。它通过快速路径处理常规出行，对模糊情况则触发迭代工具调用，结合历史轨迹、停留概率和地理证据进行决策。在三个数据集上，AgentMob 在无需训练的 LLM 方法中表现最佳，GPT-5.4 在 BW 数据集上达到 71.42% 的 Acc@1。该方法显著提升了模糊预测的准确性，并提供了决策透明度。代码已开源。

论文移动预测 LLM智能体可解释性工具调用开源/仓库

推荐理由：做城市模拟、交通规划或政策分析的团队，终于有了一个无需训练就能解释预测结果的方案——AgentMob 在模糊场景下准确率提升 18%，建议直接试一下开源代码。

原文

6月3日

10:13

arXiv cs.AI@Yingqi Zhang

精选72°

Agent libOS 提出了一种受库操作系统启发的运行时架构，将LLM智能体视为可调度的进程，具备身份、生命周期、对象内存、显式能力、人工审批队列和审计记录。其核心设计原则是工具作为类似libc的包装器，运行时原语作为权限边界，文件系统访问、对象访问、睡眠、人工批准、JIT工具注册和外部副作用都在原语边界处通过显式能力和策略进行检查。原型实现了异步调度、命名空间本地对象内存、运行时集成的人工批准、一次性权限授予、每个进程的工作目录、shell和图像注册原语、Deno/TypeScript JIT工具、文件系统/对象桥接工具、可注入的资源提供者子系统和123个回归测试。该工作不旨在提高规划器准确性，而是展示一种运行时基板，使长期运行的LLM智能体能够被调度、授权、恢复和审计，而无需将工具调度视为信任边界。

论文 LLM智能体运行时能力控制审计库操作系统

推荐理由：做LLM智能体工程化的团队终于有了一个正经的运行时方案——Agent libOS把智能体当进程管理，解决了长期运行、权限控制和审计的痛点，做智能体框架或生产部署的开发者值得细读。

原文

6月2日

12:06

arXiv: Anthropic@Hiskias Dingeto, Will Leeney

精选72°

LLM智能体通过工具调用访问第三方服务（如Gmail、Salesforce）时，面临间接提示注入攻击的威胁，但现有基准测试覆盖不足。研究者推出AgentRedBench，包含215个跨24种企业集成的微妙授权攻击场景，覆盖9个功能家族和5种攻击类型。在8个模型（Anthropic、OpenAI、Google）上，无防护的攻击成功率（ASR）从32%（Claude Sonnet 4.6）到81%（Gemini 3 Flash）不等。同时发布AgentRedGuard防护模型，在集成多样化的对抗性工具响应内容上训练，将ASR从69.9%降至2.4%，误报率仅0.37%，显著优于所有开源基线。该工作为智能体安全提供了更真实的评估基准和有效防御方案。

论文 LLM智能体安全/红队测试提示注入 SaaS集成开源/仓库

推荐理由：做LLM智能体安全或SaaS集成开发的团队，终于有了一个能真实反映生产环境威胁的测试基准和可用的防护模型，建议直接看论文和开源代码。

原文

12:03

arXiv cs.LG@Zhensheng Wang, Xiaole Liu, Wenmian Yang, Kun Zhou, Yiquan Zhang, Weijia Jia

现有表格问答系统多聚焦于历史数据查询，无法进行面向未来的数值预测。为此，研究者提出了新任务——开放域表格问答的未来数据预测与推理，并构建了首个基于房地产数据的时序预测与推理数据集ODTQA-FoRe。该任务面临历史数据精准检索、LLM预测能力不足、多样化查询标准化回答等挑战。为解决这些问题，团队提出了TimeFore框架，将问题分解为检索器、预测器和分析器三个协作角色，分别负责SQL数据获取、外部时序模型调用和结果综合。实验表明，TimeFore在预测准确性和回答一致性上显著优于基线方法。

论文表格问答时序预测 LLM智能体数据集房地产数据

推荐理由：做表格问答或时序预测的团队终于有了专门的数据集和框架——TimeFore用LLM+外部模型解决了LLM本身预测不准的痛点，做数据分析和AI应用的开发者可以直接参考其协作架构。

原文

5月29日

13:58

arXiv: OpenAI@Alejandra Zambrano, Sara Vera Marjanovic, Imene Kerboua, Xing Han Lù, Leila Kosseim

精选

LLM网页智能体在探索、关键步骤遗漏和任务约束敏感性上存在不足，现有研究认为这些失败源于规划弱点，但自然语言计划表示的影响尚未被系统探索。PlanAhead提出静态规划-执行框架，自动将WebArena任务分为三个难度级别，并在困难任务上评估四种计划表示（顺序子目标、叙事、伪代码、清单）对多模态LLM智能体（OpenAI、阿里巴巴、Google）的影响。引入两个新指标：达成率和解决任务一致性，发现计划形式和底层LLM都显著影响智能体的鲁棒性和任务成功率。

论文 LLM智能体规划表示 WebArena 多模态模型评估指标

推荐理由：做LLM智能体开发的团队终于有了计划表示的系统性对比——选对计划形式能直接提升任务成功率，建议做Web Agent的开发者点开看看具体指标差异。

原文

13:03

arXiv: DeepSeek@Johannes Moll, Jean-Philippe Corbeil, Jiazhen Pan, Martin Hadamitzky, Daniel Rueckert, Lisa Adams, Keno Bressem

精选72°

LLM智能体在结构化环境中常因操作失败而非对话失败，其可靠性依赖于对环境的程序性知识。现有自我改进方法会累积自然语言指导，但不检查新条目是否破坏已有正确行为，导致修复一个轨迹却使另一个退化。GRASP将智能体改进视为对有限技能库的编辑序列，仅当候选技能在平衡的保留测试集上产生净改进且不超过硬回归预算时才被接受。在五个基础模型和两个临床基准上，GRASP将gpt-oss-120b从40.6%提升至88.8%，超过最强基线21.0个百分点，并提升其他模型17.2至40.3个百分点。该方法还泛化到非临床环境，且技能库可在模型间迁移，强模型技能能提升弱模型表现，反之则不行。

论文 LLM智能体自我改进技能库回归预算门控机制

推荐理由：做LLM智能体自我改进的团队终于有了一个不担心「修好一个、搞坏一个」的方案——GRASP用硬回归预算和门控机制确保每次改进都是净收益，临床场景提升显著，建议做智能体可靠性的开发者点开看看。

原文

11:06

arXiv cs.AI@Anany Kotawala

多组件LLM智能体由多个子组件组成，每个子组件只看到联合问题的一部分，即使每个组件局部一致，组合后也可能违反基本概率公理。本文通过组合残差ε*形式化这种“局部一致、全局不一致”的失败，该残差可在运行时从系统输出和声明的跨组件耦合约束计算。研究在4个LLM的1876个集成团上发现，33-94%的团存在ε*>0，导致每赌注+0.115 nats的遗憾。三种直观的LLM侧缓解方法（检索、分区感知提示、聚合LLM）均失败或退化。

论文 LLM智能体组合一致性概率推理形式化验证多组件系统

推荐理由：多组件LLM系统的组合一致性是实际部署中的关键问题，做智能体架构或概率推理的开发者会直接受益——本文提供了可计算的诊断方法和理论边界，值得关注其修复方案。

原文

09:17

arXiv: Anthropic@James P. Balhoff, Hilmar Lapp

精选

表型注释是将自由文本描述链接到本体术语的关键步骤，但传统上依赖高训练专家，难以规模化。本研究使用Anthropic和OpenAI的五个前沿LLM作为“智能体策展人”，在自包含工作空间中提供原始论文PDF、注释指南和本体文件，评估其与人类策展人的一致性。结果显示，所有智能体均达到原始研究中三位训练人类策展人的一致性范围，最佳智能体接近但未超越最佳人类策展人，且在所有指标上大幅优于传统NLP工具。这表明LLM智能体有潜力自动化表型注释，缓解本体策展瓶颈。

论文 LLM智能体表型注释本体策展生物信息学自动化

推荐理由：做生物信息学或本体工程的研究者终于有了可扩展的自动化方案——LLM智能体直接对标人类专家水平，建议点开看具体实现和评估细节。

原文

5月28日

11:28

arXiv cs.AI@Jizhan Fang, Buqiang Xu, Zhixian Wang, Haoliang Cao, Xinle Deng, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Ying Wei, Guozhou Zheng, Feiyu Xiong, Haofen Wang, Huajun Chen, Ningyu Zhang

精选72°

现有记忆增强型LLM智能体通常将记忆视为静态仓库，在动态环境中表现脆弱。为此，研究者提出FluxMem框架，将记忆建模为异构图，并通过初始连接形成、反馈驱动精炼和长期巩固三个阶段逐步优化拓扑结构。在执行过程中，FluxMem能自动修复缺失链接、剪枝干扰、对齐抽象粒度，并将成功轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试中，FluxMem均取得最先进性能，展现出强大的适应性和泛化能力。代码已开源。

论文 LLM智能体记忆增强图神经网络开源/仓库动态环境

推荐理由：FluxMem解决了LLM智能体在动态环境中记忆僵化的痛点，做复杂任务自动化的开发者可以直接参考其开源实现，提升智能体的长期记忆和适应能力。

原文

5月27日

10:28

arXiv cs.AI@Huawei Lin, Peng Li, Jie Song, Fuxin Jiang, Tieying Zhang

精选

MUSE-Autoskill 提出了一种以技能为中心的智能体框架，让LLM智能体能够持续创建、记忆、管理和评估技能，实现自我进化。传统方法将技能视为孤立静态的产物，而该框架通过统一的技能生命周期（创建、记忆、管理、评估、优化）显著提升了技能的可复用性和可靠性。框架引入了技能级记忆，让每个技能跨任务积累经验，从而更有效地适应新场景。在SkillsBench上的实验表明，这种生命周期管理的技能能提高任务成功率、效率、复用率，甚至支持跨智能体迁移。这项工作对构建长期自主进化的AI智能体系统具有重要参考价值。

论文智能体技能管理自我进化 LLM智能体生命周期

推荐理由：做智能体开发或研究自主系统的团队，MUSE-Autoskill 给出了一个可落地的技能管理闭环——从创建到评估再到跨任务复用，值得直接参考其设计思路。

原文

5月22日

11:12

arXiv cs.AI@Girish Narayanswamy, Maxwell A. Xu, A. Ali Heydari, Samy Abdel-Ghaffar, Marius Guerard, Kara Vaillancourt, Zhihan Zhang, Jake Garrison, Levi Albuquerque, Dimitris Spathis, Hong Yu, Hamid Palangi, Xuhai "Orson" Xu, David G. T. Barrett, Joseph Breda, Jed McGiffin, Yubin Kim, Yuwei Zhang, Naghmeh Rezaei, Samuel Solomon, Karan Ahuja, Tim Althoff, Jake Sunshine, Ming-Zher Poh, Benjamin Yetton, Ari Winbush, Nicholas B. Allen, James M. Rehg, Isaac Galatzer-Levy, Yun Liu, John Hernandez, Anupam Pathak, Conor Heneghan, Yuzhe Yang, Ahmed A. Metwally, Pushmeet Kohli, Mark Malhotra, Shwetak Patel, Xin Liu, Daniel McDuff

精选72°

研究人员提出了一种面向可穿戴健康数据的基础模型，该模型在来自500万参与者的超过1万亿分钟未标记传感器信号上进行了预训练。通过联合扩展模型容量和预训练数据量，该模型在35项健康预测任务上（涵盖心血管、代谢、睡眠、心理健康及生活方式等）表现出系统性性能提升。该模型支持少样本学习和生成能力，可稳健估计日常健康指标。研究还部署了一组LLM智能体来自动搜索基于模型嵌入的下游预测头，并展示了性能随LLM能力提升而增强。最后，将下游预测器集成到个人健康代理中，经1860次临床医生评分验证，模型响应更相关、更具上下文意识且更安全。

论文基础模型可穿戴健康少样本学习 LLM智能体个人健康代理

推荐理由：这项研究解决了可穿戴数据标注稀缺和个体差异大的核心难题，做健康AI或可穿戴设备开发的团队可以直接参考其预训练方法和少样本学习策略，值得关注。

原文

5月21日

09:46