全部 AI 动态 · AI 热点

6月9日

10:40

arXiv cs.AI@Mohamed Sayed, Wolfram Burgard, Tanja Katharina Kaiser

精选

该研究提出一种基于多智能体强化学习的方法，解决多机器人系统协同运输任意形状、质量分布不均物体时的队形控制问题。传统方法将任务分解为队形控制、协同导航和避障三个子问题，但难以应对真实物体的复杂几何与质量分布。新方法让机器人自主在物体下方定位以支撑重量，同时避开障碍物形成平衡队形。实验表明，该方法在不同环境和机器人数量下均能生成可靠策略，并泛化到复杂场景。

论文多智能体强化学习协同运输队形控制机器人避障

推荐理由：做多机器人协同运输的团队终于有了能处理真实物体形状和质量分布的方案——不用再手工设计队形，机器人能自主适应。做物流、仓储或服务机器人的开发者值得关注。

原文

10:39

arXiv cs.AI@Yongzhong Xu

精选

这篇论文提出了一种通过共激活统计聚类注意力头、再用因果消融验证电路的方法。在Pythia 1B和OLMo 1B两个密集模型上，聚类发现的社区通过了消融测试，表明共激活信号能有效识别电路。但在混合专家模型OLMoE-1B-7B中，路由条件聚类虽能恢复统计信号，但消融后反而改善损失，说明信号无效。作者强调，共激活只是电路提案，消融才是确认电路的关键。研究揭示了注意力头选择性和参与度在训练过程中与功能解耦的现象。

论文注意力头电路发现共激活因果消融可解释性

推荐理由：做模型可解释性研究的团队会感兴趣——这篇论文把共激活聚类和因果消融结合起来，给出了一个验证注意力头电路的实用方法，建议做电路分析的开发者试试这个闭环流程。

原文

10:38

arXiv cs.AI@Jonathan F. Carter, Lionel Tarassenko

精选

该研究提出 Hypnos，一个多模态睡眠基础模型，使用来自 2 万多次夜间多导睡眠监测的 8 种传感模态（如 EEG、ECG、呼吸信号）训练。与现有使用掩码重建或对比学习的方法不同，Hypnos 采用下一词预测作为自监督目标，通过残差向量量化将每种模态离散化为 token 流，并用自回归 RQ-Transformer 并行预测所有模态的下一个 token。在睡眠阶段分类任务中，Hypnos 仅用 1% 的标注数据就达到了强监督基线的性能，还能泛化到日间生理信号，在检测房颤上超越专门的 ECG 基础模型。结果表明，下一词预测是多模态生理信号表征学习的有效且可扩展的自监督目标。

论文基础模型睡眠生理学多模态下一词预测自监督学习

推荐理由：睡眠医学和生理信号分析的研究者终于有了一个无需大量标注数据就能学到通用表征的基础模型——Hypnos 用下一词预测解决了多模态生理数据的学习难题，做睡眠分期或房颤检测的团队可以直接用它生成嵌入，大幅降低标注成本。

原文

10:36

arXiv cs.AI@Anastasiia Kuvshinova, Seungmin Jin

精选

本文提出Graph Traversal Agent，一种结合LLM推理与确定性图操作的根因分析代理，用于诊断Kubernetes事件。该方法通过类型化证据图、LangGraph状态机和独立验证阶段，确保分析结果可审计且不依赖场景捷径。在ITBench基准测试中，系统在23个场景子集上根因实体F1从0.6087提升至0.9130，但消融实验显示部分提升源于提示词优化，去除提示后F1降至0.6958。研究强调，真正的泛化能力需通过提示消融、级联源检查等轻量级验证来区分。目前工作限于ITBench OpenTelemetry-demo快照，未声称生产就绪。

论文 Kubernetes 根因分析 LLM代理图遍历可审计AI

推荐理由：Kubernetes运维团队终于有了一个可审计的根因分析方案——Graph Traversal Agent通过图约束和独立验证，避免了LLM常见的幻觉和场景作弊。做K8s可观测性或事件诊断的开发者，值得看看这个结合图遍历与LLM的框架设计。

原文

10:35

arXiv cs.AI@Subramanyam Sahoo

精选

大语言模型常会“不懂装懂”，对超出知识边界的问题给出流畅但错误的回答。研究者提出结构化无知证书（SICs），要求模型明确输出缺失的领域交集、所需概念和检索查询，而非直接生成答案。团队构建了7347条跨领域未知-未知数据集，并用GRPO微调14B模型，使SIC输出JSON有效率达99.46%，概念特异性评分0.967。该方法证明，让模型显式表达认知边界是可学习且可衡量的能力，对提升AI可靠性和安全性有重要意义。

论文推理模型幻觉缓解结构化输出未知-未知 GRPO

推荐理由：这项研究直接戳中了LLM的“幻觉”痛点——用结构化输出让模型承认无知，做AI安全或可靠性研究的团队值得关注，尤其适合需要高可信度输出的应用场景。

原文

10:34

arXiv cs.AI@Toshiaki Koike-Akino, Jing Liu, Ye Wang

精选

张量网络能高效压缩大型神经网络，但现有方法难以在大模型中识别低秩结构。EinSort提出一种自适应张量化方法，通过索引排序发现目标张量中的内在低秩结构。在权重和KV缓存压缩实验中，该方法相比基线显著提升了重建质量。这为LLM的存储和计算优化提供了新思路，尤其适合资源受限场景。

论文 LLM压缩张量网络低秩结构 KV缓存索引排序

推荐理由：做LLM压缩和部署的团队值得关注——EinSort用排序技巧解决了张量化的核心痛点，直接提升压缩效率，建议在模型优化流程中试试。

原文

10:33

arXiv: DeepSeek@Kuanlin Chen, Cheng-En Ou

精选

该研究提出了一种基于语料库特征扩散（CGFD）的低资源微调流程，用于自动生成繁体中文个别化教育计划（IEP）。通过25个专家标注的高分种子转录本提取特征，并注入LLM提示以驱动扩散，最终获得567个有效扩散样本，结合15个专家金种子构建582样本训练集，微调Breeze-7B模型。实验发现，在繁体中文token预算下，语法约束解码（GCD）反而降低效率，无GCD路径在55样本压力测试中实现100%模式通过率且延迟降低34%。在10样本正式测试中，无GCD路径的BERTScore F1达0.779，超越GPT-5.4等零样本基线，且完全本地化、气隙推理。该系统填补了繁体中文特殊教育NLP的空白，提供了隐私保护的工业级解决方案。

论文低资源微调特征扩散繁体中文NLP 特殊教育本地推理

推荐理由：做特殊教育NLP或低资源语言模型微调的团队，这篇论文提供了一个可复现的CGFD流程，直接解决了繁体中文IEP生成的数据稀缺和隐私问题，值得点开看具体实现。

原文

10:32

arXiv: DeepSeek@Yan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu

精选72°

FlashMemory-DeepSeek-V4 提出了一种名为 Lookahead Sparse Attention (LSA) 的新型推理范式，通过神经记忆索引器预测未来上下文需求，仅保留关键 KV 块在 GPU 内存中。该架构采用解耦训练策略，将索引器作为独立双编码器训练，无需加载主模型。在 LongBench-v2、LongMemEval 等长上下文评测中，LSA 将物理 KV 缓存压缩至全上下文基线的 13.5%，同时下游准确率平均提升 0.6%。在 50 万 token 极端长度下，物理 KV 缓存开销降低超过 90%，且不损害模型核心推理能力。

论文稀疏注意力长上下文 KV缓存压缩 DeepSeek-V4 推理效率

推荐理由：LSA 解决了超长上下文推理的 GPU 内存瓶颈，做长文档分析或大规模序列建模的团队可以直接参考其稀疏注意力方案，显著降低部署成本。

原文

10:29

arXiv: DeepSeek@Jianguo Zhu

精选

研究者发现了一种针对检索增强生成（RAG）系统的新型间接提示注入攻击模式，称为DACSI（文档作者控制信号冒充）。攻击者通过编写看似元数据、来源或策略信号的文档文本，让模型误将其视为可信的控制指令，从而绕过安全边界。该攻击无需显式命令，利用RAG将用户查询、检索文档和系统标签混合到同一自然语言提示中的设计缺陷。在DeepSeek V4 Pro、Qwen3.5-397B等6种模型上的实验表明，该攻击在多数模型上有效，尤其在高易感性设置中。研究建议通过源/通道分离来缓解此类攻击。

论文 RAG 提示注入安全攻击 DeepSeek Qwen

推荐理由：RAG系统开发者需要警惕这种低成本、隐蔽的间接注入方式——它不依赖命令，而是冒充元数据，做AI安全的团队建议仔细看论文中的缓解方案。

原文

10:28

arXiv: DeepSeek@Yishuo Cai, Xingyu Guo, Xuancheng Huang, Jinhua Du, Can Huang, Wenxuan Huang, Wenhan Ma, Yuyang Hu, Aohan Zeng, Jie Tang, Xu Sun

精选

论文提出MemoPilot，一种插件式记忆副驾驶，通过强化学习显式训练记忆更新过程，使冻结的LLM在连续交互中提升性能。该方法将记忆更新建模为多轮决策问题，采用多轮GRPO端到端优化，引入轮次奖励信号和上下文无关的轮级优势估计，实现更精细的信用分配和稳定训练。在多人石头剪刀布和有限注德州扑克两个测试环境中，MemoPilot的Elo评分分别达到1590和1762，超越所有基线记忆方法和包括DeepSeek-V3.2在内的闭源模型。这项工作解决了现有方法依赖手工设计提示规则、难以对齐记忆更新与长期目标的痛点。

论文 LLM智能体记忆更新强化学习测试时学习博弈

推荐理由：做LLM智能体长期部署和持续学习的团队可以关注——MemoPilot用强化学习自动优化记忆策略，比手工调提示更系统，在博弈场景中效果显著，值得在类似任务中尝试。

原文

10:27

arXiv cs.AI@Mark Burgess

精选

本文探讨了承诺理论在自主智能体系统中的定量表示方法，将贝叶斯概率、信息论优化（包括主动推理）与承诺语义相结合。承诺理论能弥补概率方法的缺陷，如非局部协调、校准和归一化问题。边界条件被视为一种承诺，用于约束状态和选择决策阈值，而智能体对齐提供了可扩展的意图定义。自主智能体通过最小化信息来凝聚成具有超级智能体特征的群体，尽管不确定性会最大化信息。该理论面临研究挑战和风格偏好问题。

论文承诺理论自主智能体主动推理贝叶斯概率信息论

推荐理由：做多智能体系统、主动推理或概率建模的研究者会感兴趣——承诺理论提供了一种避免概率陷阱的新框架，值得深入阅读。

原文

10:26

arXiv cs.AI@Shumeng Yang, Yisu Liu, Jiayi Zheng, Zhaohui Yang, Linjing Li

精选

论文提出PAEC（位置感知熵校准）方法，解决强化学习（RLVR）中策略熵过早崩溃的问题。传统全局熵正则化对所有位置均匀增加熵，在长推理轨迹中效率低下。PAEC通过局部top-p熵和top-two候选竞争构建软掩码，对决策敏感位置施加基于锚点的下界惩罚，防止这些位置的熵崩溃。在五个数学推理基准测试中，PAEC相比强RLVR基线提升了多数投票的宏平均性能，尤其在AIME类任务上增益明显。结果表明，推理RL中的熵管理应聚焦于决策敏感位置的选择性探索，而非均匀随机注入。

论文强化学习推理模型熵校准数学推理 RLVR

推荐理由：做LLM推理强化学习的团队终于有了更精细的熵控制方案——PAEC在数学推理任务上直接提升多数投票性能，做RLVR的开发者值得关注这个位置感知的新思路。

原文

10:25

arXiv cs.AI@Haizhou Ge, Yufei Jia, Yue Li, Zhixing Chen, Lu Shi, Lei Han, Guyue Zhou, Ruqi Huang

精选

机器人探索操作中，一次看似失败的尝试（如拉锁住的抽屉）往往揭示了完成任务的关键前提条件。本文形式化定义了探索操作轨迹问答（EMT-QA）任务：给定同步视频和本体感知数据，预测最小成功动作链。现有VLM和具身多模态大模型无法可靠地从原始数据中恢复该链条。作者提出闭环轨迹蒸馏（Closed-Loop Trace Distillation）方法，通过每个任务的编码代理检查标注轨迹，蒸馏出一行自然语言提示（DRH）。在三个模拟器和两个真实机器人任务上，DRH将链条预测准确率提升0.38-0.47，且DRH本身可作为一次性程序化分类器的唯一规范。

论文探索操作轨迹问答 VLM 蒸馏提示机器人

推荐理由：机器人操作中失败尝试常被忽略，但本文证明它们才是关键线索——做具身智能或机器人规划的团队，可以用蒸馏出的单行提示直接提升VLM的轨迹理解能力，值得在仿真和真实场景中试试。

原文

10:12

arXiv cs.AI@Chenglin Yang

精选

AgentTrust 提出了一种针对AI智能体动作的信任层，能根据威胁类型（词法或语义）决定是否允许、警告、阻止或升级操作。词法威胁可通过确定性规则处理，而语义威胁（如表面相似但意图不同的动作）则依赖LLM判断。该系统通过自学习机制，在语义攻击为主的语料上，将规则准确率从48%提升至83.6-85.2%，且误报率极低。AgentTrust v2 采用双存储系统：对词法威胁蒸馏出确定性规则以降低成本，对语义威胁使用带验证的RAG记忆，将语义准确率提升13个百分点。在45000个动作的端到端回放中，LLM调用率从50%降至44%，准确率从71%升至80%，且未误阻任何良性动作。

论文智能体安全/信任 LLM判断自学习威胁分类

推荐理由：AI智能体安全是当前最棘手的工程问题之一，AgentTrust 用自进化信任层解决了规则无法覆盖语义攻击的痛点，做智能体安全或自动化运维的团队可以直接参考其架构设计。

原文

09:51

arXiv cs.AI@Lei Lin, Ronghao Wang, Chunbao Zhou, Jue Wang, Yangang Wang

精选

DN-Hypo-Pipeline 是一个基于大语言模型的AI工作流，旨在通过利用科学解释作为先验知识，辅助研究人员从现有文献中推导出新颖的研究假设。该管道从论文的结论（explanandum）出发，识别其背后的定律、理论和原理，并重构出对观察现象的新解释。在数据科学建模领域的评估中，结合LLM裁判和人类专家评价，该管道比直接生成方法更有效。此外，两个得分最高的生成假设被转化为新算法，性能超过了原论文的基线模型。该方法本质上是理论引导建模的泛化，有望扩展到其他科学领域。

论文假设生成大语言模型科学解释理论引导建模数据科学

推荐理由：做科研假设生成或理论驱动建模的研究者，可以用这个管道从文献中自动挖掘新假设，比手动推导更系统高效，值得在数据科学之外的其他学科试试。

原文

09:50

arXiv cs.AI@Lu Jia, Haibo Tong, Feifei Zhao, Jindong Li, Dongqi Liang, Ping Wu, Qian Zhang, Yi Zeng

精选

VESTA 是一个全自动化的 LLM 智能体安全评估框架，能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示，难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试，发现平均安全风险率高达 47.1%，部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。

论文 LLM 智能体安全评估自动化测试风险维度 VESTA

推荐理由：做 LLM 智能体安全评估的团队终于有了自动化工具——VESTA 能生成上千个真实任务场景，直接测出模型执行中的安全漏洞。建议关注智能体安全的开发者点开看看，结果可能会让你重新审视现有模型的风险。

原文

09:47

arXiv cs.AI@Yuan Zhang, Shiqi Zhang, Yedong Shen, Shuai Dong, Jiajun Deng, Xin Zhang, Yuxuan Gao, Jiajia Wu, Xin Nie, Zhiyuan Cheng, Jianmin Ji, Yanyong Zhang, Xingyi Zhang, Jia Pan

精选72°

GEAR-VLA 是一种新型视觉-语言-动作（VLA）框架，旨在解决现有 VLA 模型在真实部署中面对未见物体、背景变化和不同机器人本体时的泛化问题。它通过粗到细的动作学习、语义对齐的 3D 特征融合以及本体规范化，学习统一的几何感知动作表征。在 LIBERO、零样本 LIBERO-Plus 和 RoboTwin 2.0 上达到最先进性能，在 AgileX 上成功率 85.9%，在未见本体 LDT-01 上达 81.0%，在 212 个未见物体的通用抓取基准上达 90.1%。代码和模型将开源。

论文机器人操作 VLA模型泛化 3D视觉开源/仓库

推荐理由：GEAR-VLA 解决了机器人操作中跨本体、跨场景泛化的核心痛点，做机器人操作研究的团队可以直接参考其粗到细动作学习与 3D 对齐方法，值得关注其开源代码。

原文

09:42

arXiv cs.AI@Bingjia Huang, Xiangyu Li, Xiang Wang, Liang Mi, Zixu Hao, Weijun Wang, Hao Wu, Kun Li, Yunxin Liu, Ting Cao

精选

生成式机器人策略在部署时可能突然失败，现有检测方法需要白盒访问或增加计算开销。ActProbe 提出仅从动作空间提取两个信号——连续动作块间的时间一致性误差（TCE）和当前动作块幅度（ACM），通过单次前向传播即可预测失败。该方法在多个基准测试中将失败检测的F1-时效性帕累托前沿平均提升12.7%，在未见任务上早期检测ROC-AUC领先9.0%。ActProbe 还能迁移到真实机器人拾取任务，将强化学习微调所需环境交互次数减少2.9倍。

论文机器人策略失败检测动作空间生成式策略强化学习

推荐理由：做机器人策略部署或安全检测的团队，终于有了一个不依赖模型内部状态、零运行时开销的失败预警方案——ActProbe 只需动作序列就能提前发现异常，建议做真实机器人实验的开发者直接试。

原文

09:40

arXiv: Anthropic@Jason Starace

精选72°

一项预注册的对照研究系统比较了三种不同 scaffold（ReAct、多智能体 Planner-Actor-Rater、Planner-then-Executor）在五个模型（Claude Opus 4.7、Sonnet 4.6、Haiku 4.5、Gemini 3.1 Pro Preview、GPT-5.5）上的 GAIA 验证集表现。研究发现，仅 scaffold 选择就使同一模型的准确率波动高达 28 个百分点，证实了 scaffold 变化至少产生 10 个百分点的差距。更令人意外的是，更强大的模型并未对 scaffold 更不敏感——在更难的 Level 2 任务中，最强模型反而从结构化 scaffold 中获益最多。多智能体设计在 Anthropic 模型家族中优于 ReAct，但跨模型提供商时优势消失。结构化 scaffold 调用工具次数更少，但在困难任务中从错误中恢复的能力更强。这些结果表明，单 scaffold 的能力评估数字是 scaffold 条件性的，且随着模型改进，评估差距未必会缩小。

论文模型评估 Scaffold GAIA 智能体预注册研究

推荐理由：做 AI 模型评测或选型的人必须看——这篇研究用严格对照实验证明，你看到的模型能力分数可能更多反映的是 scaffold 设计而非模型本身，建议重新审视自己的评估流程。

原文

09:39

arXiv cs.AI@Nicholas Leisegang, Thomas Meyer, Sebastian Rudolph

精选

本文提出将KLM可废止逻辑与立场逻辑相结合，形式化表达多个可能矛盾视角下的可废止信念。作者利用可废止受限立场逻辑（DRSL），为DRSL语义提供了基础表示结果，并系统地将多种命题蕴涵关系提升到立场增强场景。研究还展示了如何通过语义和算法手段提升优先蕴涵及基于单排序函数的蕴涵关系（包括理性和词典序闭包）。关键发现是，从命题KLM到DRSL，每种蕴涵检查的复杂度类保持不变。

论文可废止逻辑立场逻辑多视角推理知识表示复杂度分析

推荐理由：多视角推理是AI处理冲突信息的核心挑战，做知识表示与推理的研究者可以关注这个复杂度不变的理论突破，直接用于多智能体或争议性知识库场景。

原文

09:38

arXiv cs.AI@Zhengyi Zhuo, Yan Liu

精选

论文提出Ada框架，通过有限工具接口让AI Agent在真实代码库中自由探索，记录其导航、证据选择、综合理解等行为轨迹。研究分析了408条轨迹，覆盖多种模型和仓库，将工具使用数据转化为可比较的行为画像。该方法揭示了不同Agent在效率、轨迹多样性、认知基础等方面的差异，为观察SWE Agent在真实环境中的行为提供了方法论基础。

论文 SWE Agent 代码理解行为分析轨迹数据 Ada框架

推荐理由：研究SWE Agent行为的团队终于有了可量化的观察方法——Ada框架把黑箱行为变成可比较的轨迹画像，做Agent评估和调试的开发者值得关注。

原文

09:37

arXiv cs.AI@Minyoung Hwang, Seokhyun Lee, Changhee Lee

精选

本文提出一种新方法，用于解释黑盒深度语言模型的预测决策。该方法通过选择一小部分信息丰富的输入单词来生成解释，解决了现有方法在推理效率、黑盒兼容性和语言结构可解释性三方面的不足。研究将单词选择建模为摊销优化问题，使用REINFORCE策略梯度进行训练，无需访问模型内部状态。同时，通过整合图结构知识，确保所选单词子集在语言上连贯且符合人类直觉。实验表明，该方法在多个数据集和模型架构上优于传统黑盒方法和梯度基方法。

论文可解释性黑盒模型单词选择策略梯度语言结构

推荐理由：做NLP模型可解释性研究的团队，终于有了一个兼顾效率、黑盒兼容和语言直觉的方案——无需模型内部信息，直接输出可理解的单词子集解释，值得一试。

原文

09:36

arXiv cs.AI@Xuanyi Liu, Deyi Ji, Junyu Lu, Jing Wang, Qianxiong Xu, Xuhang Chen, Tianrun Chen, Siwei Ma

精选

FaithRewriter 是一种新的提示增强框架，旨在解决文生图模型中用户意图与生成结果之间的差距。现有方法主要优化提示的流畅性和可读性，但缺乏视觉基础，容易过度推断缺失细节。FaithRewriter 首先利用多模态大模型根据原始提示生成中间图像作为视觉线索，然后将该图像与提示结合输入大规模语言模型，生成视觉上更合理的增强内容。最后，这些增强内容被蒸馏到小规模语言模型中实现高效部署。实验表明，FaithRewriter 生成的提示更忠实于用户意图，视觉上更合理，有效缩小了意图-生成差距。

论文文生图提示增强 FaithRewriter 多模态视觉锚点

推荐理由：做文生图应用或研究的人会关心——FaithRewriter 用视觉锚点解决了提示重写中的过度推断问题，生成的提示更贴近用户真实意图，值得在项目中尝试集成。

原文

09:35

arXiv cs.AI@Yao Cheng, Siqiang Luo

精选

关系深度学习（RDL）将关系数据库转换为异构图，但直接从数据库模式导出的图往往不适合图神经网络（GNN）进行关系推理。研究发现，模式派生图存在两个系统性问题：信息过载和语义碎片化。理想的图不是原始模式，而是通过受控的结构适应得到的结果。性能取决于平衡两种操作：通过过滤缓解信息过载，以及通过注入修复语义碎片。基于这些发现，研究者开发了一个端到端的结构优化器，可自动调整关系图。在26个任务（分类、回归、推荐）上，优化后的图一致提升了准确率，同时常能降低推理成本。

论文图神经网络关系深度学习结构优化信息过载语义碎片化

推荐理由：做图神经网络或关系数据处理的团队，终于有了一个系统性的图结构优化方法，可以直接用在数据库到图的转换中，提升模型效果并节省计算资源。

原文

09:27

arXiv: DeepSeek@Xiaojun Wu, Cehao Yang, Honghao Liu, Xueyuan Lin, Wenjie Zhang, Zhichao Shi, Xuhui Jiang, Chengjin Xu, Jia Li, Jian Guo

精选

Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架，它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据，维护每个技能的特征条件分类后验，并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上，增量修复将 SOP-Bench 从 80% 提升至 95%，Lifelong AgentBench 从 90% 提升至 100%，RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端，表明 Agent 技能进化应视为后验引导的优化，而非未校准的提示积累。代码已开源。

论文 LLM Agent 技能进化后验引导开源/仓库推理模型

推荐理由：做 LLM Agent 开发的团队终于有了一个系统化的技能进化方法，不用再靠试错和启发式反思——Bayesian-Agent 用后验概率指导优化，效果显著且可审计，建议直接看论文和代码。

原文

09:26

arXiv: DeepSeek@Zhiwei Liu, Yueru He, Qing Ou, Tianlei Zhu, Xiaorui Guo, Xueqing Peng, Sophia Ananiadou

精选

现有金融审计基准主要关注事实验证和规则合规，但缺乏对误导性披露叙述的评估。研究者推出 AuditFraudBench，基于真实公司文件和监管材料构建，包含利润来源归因、误导性叙述检测和欺诈模式分类三个任务。测试 GPT、DeepSeek、Qwen 等模型发现，无论是闭源还是开源模型，在联合推理财务数据、披露框架、重述证据和执法欺诈机制方面仍表现不佳。该基准为评估 LLM 在财务报告中的审计相关能力提供了具有挑战性的测试平台。

论文审计财务欺诈检测 LLM 评估基准测试金融 NLP

推荐理由：审计和财务分析从业者终于有了一个专门评估 LLM 识别财务造假的基准——AuditFraudBench 直击现有模型在误导性披露和欺诈模式上的短板，做金融 NLP 或审计自动化的团队值得用它来检验自己的模型。

原文

09:25

arXiv: DeepSeek@Saeid Jamshidi, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh

精选72°

该研究分析了多智能体LLM系统中幻觉的动态传播过程，通过500次级联实验追踪事实不一致性。结果显示，3级级联将归一化幻觉分数从0.422降至0.272，但事实准确性从0.789降至0.769，揭示了幻觉抑制与事实保留之间的权衡。不同模型表现各异：LLaMA-3-70B-Instruct幻觉最低，GPT-5.3生成更快但幻觉率更高。领域分析表明，科学领域幻觉较低，抽象领域较高。

论文多智能体系统幻觉传播级联分析 LLaMA-3 GPT-5.3

推荐理由：多智能体系统开发者终于有了量化幻觉传播的基准——这篇论文揭示了级联深度与事实准确性的权衡，做Agent编排的团队建议仔细看，避免盲目堆叠智能体导致事实失真。

原文

6月8日

11:20

arXiv cs.AI@Luca Avena, Gianmarco Bet, Bernardo Busoni

该研究通过构建标准与反直觉两类离散概率问题数据集，测试了8个前沿大语言模型的概率推理能力。模型在标准问题上平均准确率达0.96，但在反直觉问题上骤降至0.59。研究还发现token偏差：将规范表述替换为伪装变体后性能下降超20%；在提示中嵌入误导性建议可使性能下降高达34%，且没有模型能免疫。结果表明，尽管LLM在高级数学问题上表现出色，但它们并非真正的概率推理者。

论文大语言模型概率推理基准测试 token偏差提示工程

推荐理由：想用LLM做决策或数据分析的开发者注意了——模型在概率推理上存在系统性漏洞，反直觉问题和提示误导能轻易让它翻车，建议点开看看测试细节，避免在实际应用中踩坑。

原文

11:17

arXiv cs.AI@Cong Chen, Guo Gan, Kaixiang Ji, ChaoYang Zhang, Zhen Yang, Guangming Yao, Hao Chen, Jingdong Chen, Yi Yuan, Chunhua Shen

MemDreamer 是一种新型框架，通过解耦感知与推理，将长视频理解转化为智能体探索过程。它采用分层图记忆架构，将视频流增量构建为三层语义抽象，并利用智能体工具增强检索机制，在推理时通过观察-推理-行动循环导航节点和逻辑边。实验表明，MemDreamer 在四个主流基准测试中达到最先进水平，与人类专家的差距缩小至仅 3.7 分。它仅使用全上下文 2% 的推理窗口，却带来 12.5 分的绝对准确率提升。此外，统计发现视觉语言模型在逻辑推理与长视频理解性能间存在强正线性相关，表明智能体能力扩展是多模态理解的新范式。

论文长视频理解智能体检索分层图记忆视觉语言模型推理模型

推荐理由：长视频理解一直受限于 token 爆炸和注意力稀释，MemDreamer 用智能体检索和分层记忆解决了这个痛点。做视频分析、多模态研究的团队可以直接参考其框架，在现有模型上即插即用，值得一试。

原文

11:12

arXiv cs.LG@Ming Sun, Kun Yuan

本文提出MG-ADSGD算法，针对强凸优化问题，首次在去中心化随机优化中同时实现加速的κ平方根和网络谱间隙的平方根倒数依赖。该算法结合Nesterov型原始-对偶外推与多轮快速八卦平均，通过将八卦深度与小批量大小耦合，额外通信轮次同时提升共识精度和降低梯度方差。理论分析表明，MG-ADSGD的通信复杂度达到当前最优，包含σ²/(μnε)项和√(κ/(1-β))项，优于现有所有去中心化随机方法。这一突破解决了去中心化随机优化中长期存在的加速难题。

论文去中心化优化随机梯度下降强凸优化加速算法通信复杂度

推荐理由：去中心化学习研究者终于有了理论最优的随机算法——MG-ADSGD同时加速了条件数和网络拓扑的影响，做分布式优化或联邦学习的团队值得关注这个新基准。

原文

11:10

arXiv cs.LG@Jin Guo, Roy Y. He, Jean-Michel Morel

本文提出了机器学习中二阶路径核插值公式，扩展了Pedro Domingos在2020年提出的一阶插值公式。该公式将模型预测表示为沿优化路径的积分，其中包含数据依赖的核函数。二阶形式补充了曲率加权的插值项，对于随机梯度下降，还出现了与mini-batch梯度噪声协方差耦合的采样诱导分量。研究还扩展到带动量的随机梯度下降，并给出了终端预测的浓度估计。这些结果细化了神经网络预测的路径核解释，为理解训练数据如何塑造模型预测提供了更精确的理论框架。

论文路径核插值二阶公式随机梯度下降神经网络预测机器学习理论

推荐理由：这篇论文为理解神经网络预测提供了更精确的理论工具，做机器学习理论或模型可解释性研究的开发者值得关注，能帮你更深入理解训练数据的影响机制。

原文

11:09

arXiv cs.LG@Ekaterina Grishina, Stepan Kuznetsov, Askar Tsyganov, Ilya Ivanov, Daria Korovaitceva, Margarita Rusanova, Uliana Parkina, Alexander Derevyagin, Evgeny Frolov, Sergey Samsonov, Anton Lysenko

论文推荐系统算法排名 Bradley-Terry模型数据集特性评估方法

推荐理由：推荐系统团队做算法选型时，别再被平均指标骗了——BT模型帮你根据数据集特性精准排名，省去跑全量模型的成本，做评估基准的开发者值得一试。

原文

11:07

arXiv cs.LG@Ryan Missel, Xiajun Jiang, Linwei Wang

个性化心脏模拟面临模型个性化和计算成本挑战，现有神经代理方法要么侧重高效个性化，要么侧重泛化模型训练。最新研究通过小样本生成建模和元学习实现个性化，但假设训练分布静态且任务标识已知，无法处理临床中顺序到达的未标记数据，否则会灾难性遗忘。本文提出持续元学习框架CoMetaPNS，利用持续贝叶斯高斯混合模型推断数据标识和关系，实现个性化神经代理的持续集成。在合成心脏数据上，该方法在模拟预测、计算可扩展性和抗遗忘方面优于现有基线。

论文持续学习元学习心脏模拟神经代理个性化医疗

推荐理由：心脏模拟领域终于有了能应对临床数据流变化的方案——CoMetaPNS解决了灾难性遗忘问题，做个性化医疗模拟或心脏电生理研究的团队可以直接参考其持续学习框架。

原文

11:06

arXiv cs.LG@Lei Huang

许多重要现象（如产品采用、疾病传播、金融风险扩散）以动态级联方式展开，恢复其背后的隐藏影响网络是关键挑战。现有方法通常假设特定的扩散模型，当假设错误时性能大幅下降。CascadeNet 提出基于雅可比矩阵的机器学习框架，无需指定扩散机制，通过一步转移函数的雅可比矩阵刻画影响结构，并利用 Neyman 正交去偏实现统计推断。在九种常见数据生成过程的模拟中，CascadeNet 恢复精度最高；在西班牙 52 省 COVID-19 传播的真实案例中，其恢复的网络与真实人口流动网络显著相关，而基线方法无显著对齐。

论文网络恢复级联数据雅可比矩阵去偏估计 CascadeNet

推荐理由：做网络推断、因果发现或传染病建模的研究者终于有了一个不依赖模型假设的通用方法——模拟和真实数据都验证了效果，值得直接复现试试。

原文

11:05

arXiv: OpenAI@Aravind Sundaresan

72°

串行LLM推理后端（如Ollama）在混合工作负载下因FCFS调度导致队头阻塞（HOLB），短查询可能被长生成任务延迟数分钟。Clairvoyant是一个即插即用的侧车代理，通过19个轻量级词汇特征用ONNX导出的XGBoost分类器预测响应长度，单请求延迟仅0.029毫秒。它优化排序保真度，在自然对话数据集上达到62-96%分布内和52-66%跨分布准确率。在RTX 4090上，短请求的P50延迟在最大队列压力下降低70-76%，稳态泊松到达下降低17%。Clairvoyant开源且无需修改推理后端。

AI产品 LLM推理调度优化队头阻塞开源/仓库边缘部署

推荐理由：本地部署LLM的开发者终于有办法解决队头阻塞了——Clairvoyant用极低开销预测请求长度，短查询不再被长任务堵死，Ollama/llama.cpp用户可以直接集成试试。

原文

11:03

arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov

ThinkBooster 是一个统一的测试时计算（TTC）扩展框架，旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试，以及兼容OpenAI的代理服务，支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡，并展示了实际增益。代码以MIT许可证开源。

论文推理模型测试时计算扩展开源/仓库性能评估编程助手

推荐理由：做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益，不用再自己拼凑评估流程，建议直接试。

原文

11:02