11:12arXiv cs.AI@Wei Wu论文对自2026年3月持续生产的个人助手LLM Agent运行时进行8周纵向研究,系统包含约40个定时任务、8个LLM供应商、4286个单元测试和827个治理检查。记录22起事故,识别出至少28次“静默故障”实例,归纳为5类机制导向分类(A环境平台异常、B设计假设不匹配、C错误吞噬稀释、D链式幻觉与捏造、E操作遗漏与取证盲点)。D类为LLM特有且最危险——系统不仅不报告错误,还将其转化为流畅可信的叙事呈现给用户,作者称为“fail-plausible”。关键发现:约70%静默故障由人类用户视角观察发现而非测试或审计捕获;事故延迟从13小时到60天不等,与故障机制相关而非代码复杂度。论文LLM Agentsilent failurestaxonomy生产环境智能体推荐理由:彻底揭示LLM Agent为何会‘平静地撒谎’原文
10:41arXiv cs.AI@Rakibul Hasan Rajib, Mengxin Zheng, Qian Lou精选72°多轮LLM Agent服务将无状态请求处理转变为有状态程序执行,需要调度、KV缓存管理和路由策略利用程序级上下文。直接在真实系统上评估这些策略成本高昂,而现有模拟器仅针对无状态请求。AGENTSERVESIM 是一个硬件感知模拟器,通过程序编排器、工具模拟器、会话感知路由器和KV驻留模型等模块,在程序粒度上评估服务策略。在真实部署和硬件配置下,AGENTSERVESIM 在关键性能指标上误差小于6%,且完全在普通CPU上运行。该工具使得无需在昂贵加速器上大规模部署即可进行可控、可重复的Agent服务策略探索。论文LLM Agent模拟器KV缓存服务调度硬件感知推荐理由:做LLM Agent服务部署和优化的团队,终于有了一个低成本、高精度的模拟工具来测试调度和缓存策略,不用再烧GPU时间试错,建议直接看论文细节。原文
09:27arXiv: DeepSeek@Xiaojun Wu, Cehao Yang, Honghao Liu, Xueyuan Lin, Wenjie Zhang, Zhichao Shi, Xuhui Jiang, Chengjin Xu, Jia Li, Jian Guo精选Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架,它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据,维护每个技能的特征条件分类后验,并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上,增量修复将 SOP-Bench 从 80% 提升至 95%,Lifelong AgentBench 从 90% 提升至 100%,RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端,表明 Agent 技能进化应视为后验引导的优化,而非未校准的提示积累。代码已开源。论文LLM Agent技能进化后验引导开源/仓库推理模型推荐理由:做 LLM Agent 开发的团队终于有了一个系统化的技能进化方法,不用再靠试错和启发式反思——Bayesian-Agent 用后验概率指导优化,效果显著且可审计,建议直接看论文和代码。原文
12:02arXiv cs.AI@Yuhua Liao, Zetian Wang, Qiangqiang Nie, Zhenhua Zhang时间序列预测在基础模型支持下取得了快速进展,但统计预测结果往往需要结合业务上下文(如节假日、活动计划、外部事件等)才能成为决策就绪的预测。本文提出了“最后一公里预测”问题,并设计了一个基于 LLM Agent 的框架,该框架在预测模型之上运行,维护统一的工作空间,调用工具检索上下文证据,并在结构安全约束下将推理轨迹转化为显式的预测修订动作。系统还支持通过 map-reduce 分解进行长周期预测,并通过记忆库进行事后反思,确保可控和可审计。实际案例表明,LLM Agent 能有效弥合统计预测与业务就绪预测之间的差距。论文时间序列预测LLM Agent业务上下文预测修订可审计推荐理由:做时间序列预测的团队终于有了一个能处理业务上下文的实用方案——LLM Agent 自动整合节假日、活动等非结构化信息,让统计预测直接变成决策可用的结果,值得做预测的开发者点开看看。原文
11:12arXiv cs.AI@Lichao Wang, Zhaoxing Ren, Tianzhuo Yang, Jiaming Ji, Chi Harold Liu, Yaodong Yang, Juntao DaiSafeMCP 是一个服务器端防御插件,针对 LLM Agent 使用 MCP 协议时因动作空间扩大带来的安全风险。它通过内部世界模型进行前瞻推理,实现两层防御:主动工具过滤限制危险权限扩展,以及即时干预作为故障安全机制。训练采用三阶段流程:环境动态基础、安全策略初始化和带双重可验证奖励的强化学习。在 PowerSeeking Bench、ToolEmu 和 AgentHarm 上的实验表明,SafeMCP 能在降低风险的同时保持 Agent 的实用性。论文MCP/工具LLM Agent安全防御前瞻推理强化学习推荐理由:做 LLM Agent 安全防护的团队终于有了一个可落地的方案——SafeMCP 在服务器端用前瞻推理主动过滤危险工具调用,比事后审计更有效,建议关注其开源实现。原文
10:49arXiv: DeepSeek@Xiaonan Xu, Wenjing Wu精选一篇来自 arXiv 的论文系统研究了技能文档的呈现粒度对大型语言模型智能体任务成功率的影响。实验基于 SkillsBench 基准,包含 30 个领域平衡的任务,测试了 GPT-5.5 和 DeepSeek V4-Flash 两种模型。结果显示,提供技能文档相比无技能条件,任务平均通过率提升 18 到 36 个百分点,效果显著。然而,技能文档的抽象程度(低抽象 vs 高抽象)以及是否包含示例对成功率的影响很小且统计上不显著。该研究表明,技能可用性是关键因素,而呈现细节的调整影响有限且依赖模型。论文LLM Agent技能文档任务成功率GPT-5.5DeepSeek V4-Flash推荐理由:做 LLM Agent 开发的团队终于有了实证依据:给智能体塞技能文档比纠结怎么写更管用。建议直接参考这个实验设计来优化自己的 RAG 或工具调用策略。原文
10:09arXiv cs.AI@Dmitry Redko, Albert Fazlyev, Konstantin Sozykin, Maria Ivanova, Evgeny Burnaev, Egor Shvetsov精选该研究通过三个受控实验,系统评估了 LLM Agent 在硬件感知代码优化中的表现。研究发现,LLM 在纯黑盒优化中表现为贪婪优化器;在零样本内核生成中,提供显式输入大小信息没有可测量的效果,模型会收敛到相同的内核参数;在反馈循环优化中,CUDA 在迭代反馈下单调改进,而 TVM IR 则主动退化。结论表明,LLM 在代码优化任务中高度依赖预训练先验知识,而非提供的反馈或智能体结构。论文LLM Agent代码优化硬件感知先验知识反馈循环推荐理由:做 AI 编译器或硬件优化的开发者会关心——LLM Agent 的搜索能力被高估了,实际表现受限于预训练数据分布,直接套用反馈循环可能适得其反,建议先看实验设计再决定是否采用。原文
10:28arXiv: Anthropic@Aman Desai精选RooAgent 是一个基于 LLM 的智能体,为高能物理领域的 Root 数据分析提供自然语言接口。它将物理分析功能封装为工具,LLM 根据用户自然语言指令调用这些工具。支持两种模式:基于 LangGraph 的 Agent(兼容 GPT-4.1 和 DeepSeek-V3),以及 MCP 服务器模式(兼容 Claude Sonnet 4.6)。功能包括直方图检查、事件选择、运动学分布可视化、拟合和显著性估计。已在多个模拟和 ATLAS 开放数据上验证,代码开源在 GitHub。AI产品RooAgent高能物理LLM AgentRoot分析开源/仓库推荐理由:高能物理研究者终于可以用自然语言做 Root 分析了——RooAgent 把复杂的 PyRoot 操作封装成 LLM 可调用的工具,做粒子物理数据分析的团队可以直接试,省去手写大量脚本的麻烦。原文
12:12arXiv cs.AI@Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, Fuli Feng精选72°论文指出基于大语言模型的智能体在陌生环境中常因过早利用先验知识而失败,提出自主探索能力是关键但被忽视的环节。作者引入可验证的探索检查点覆盖率指标,量化智能体发现关键状态、物体和功能的能力。实验发现标准任务导向强化学习训练出的智能体行为狭窄重复,阻碍下游性能。为此提出探索-执行交替训练策略,并构建先探索后行动的范式,让智能体先利用交互预算获取环境知识再执行任务。结果表明系统学习探索对构建通用、真实世界可用的智能体至关重要。论文智能体自主探索强化学习LLM Agent探索-执行范式推荐理由:这篇论文直击 LLM Agent 在陌生环境中的核心短板——过早行动,做智能体开发或强化学习的研究者值得一读,提出的探索-执行范式可以直接启发你的训练策略。原文
16:11Harrison Chase@hwchase17LangChain 联合创始人 Harrison Chase 在 X 上分享了一个新项目:为 LLM Agent 构建类似 Dependabot 的故障自动修复系统。该项目利用 LangSmith Engine 作为“烟雾探测器”,并计划增加“自动喷淋系统”——即带人工审批的自动修复流程。整个流程分为四个阶段:分类(Classify)→ 补丁(Patch)→ 评估(Eval)→ 影子测试(Shadow)。这填补了 LLMOps 生态中一个真实空白,让 Agent 故障不再需要手动排查和修复。AI产品LangChainLangSmithLLM Agent故障自动修复LLMOps推荐理由:LLM Agent 的故障排查和修复一直是运维痛点,这个方案让做 Agent 部署和运维的团队能像用 Dependabot 一样自动化处理问题,值得关注后续进展。原文