全部 AI 动态 · AI 热点

6月2日

12:06

arXiv: Anthropic@Hiskias Dingeto, Will Leeney

精选72°

LLM智能体通过工具调用访问第三方服务（如Gmail、Salesforce）时，面临间接提示注入攻击的威胁，但现有基准测试覆盖不足。研究者推出AgentRedBench，包含215个跨24种企业集成的微妙授权攻击场景，覆盖9个功能家族和5种攻击类型。在8个模型（Anthropic、OpenAI、Google）上，无防护的攻击成功率（ASR）从32%（Claude Sonnet 4.6）到81%（Gemini 3 Flash）不等。同时发布AgentRedGuard防护模型，在集成多样化的对抗性工具响应内容上训练，将ASR从69.9%降至2.4%，误报率仅0.37%，显著优于所有开源基线。该工作为智能体安全提供了更真实的评估基准和有效防御方案。

论文 LLM智能体安全/红队测试提示注入 SaaS集成开源/仓库

推荐理由：做LLM智能体安全或SaaS集成开发的团队，终于有了一个能真实反映生产环境威胁的测试基准和可用的防护模型，建议直接看论文和开源代码。

原文

12:06

arXiv: DeepSeek@Boao Kong, Weichen Jia, Engao Zhang, Guohong Li, Yonghan Dong, Yao Wang, Yaoyuan Wang, Yunke Peng, Kun Yuan

低精度训练在降低大模型训练成本的同时，常因少数算子的数值不稳定导致训练失败。论文提出GNMR（梯度范数与均值比）轻量控制器，通过比较当前梯度范数与历史均值，并结合Δ-GNMR检测短窗口内的突变，在固定预算和锁定间隔内执行恢复操作，无需改变数值格式或底层实现。在激活量化、DeepSeek式训练和LLaMA-2 13B微调等场景中，GNMR以稀疏的恢复动作保持高保真质量。该方法为低精度训练提供了一种后端无关的稳定性控制方案。

论文低精度训练训练稳定性 GNMR 大模型量化

推荐理由：低精度训练是降低大模型成本的关键，但数值不稳定常让训练白费。GNMR用轻量控制解决了这个痛点，做大规模训练或量化训练的团队值得关注，可以直接集成到现有流程中。

原文

12:06

arXiv: DeepSeek@Md Motaleb Hossen Manik, Ge Wang

HypothesisMed 是一个针对生物医学多项选择题的推理时可靠性管道，通过结合直接提示、思维链、HypothesisMed-v3 提示和答案融合来提升模型输出的可解析性和可靠性。它引入 SPACE 标签（有效、不完整、矛盾）标记答案空间，并提供置信度信息。在 MedQA、MedMCQA 和 PubMedQA 上对 Qwen2.5-7B、Phi-4-mini、DeepSeek-R1-32B 和 BioMistral-7B 的评估显示，该管道在加权准确率上优于各模型的最佳基线，同时提高了解析覆盖率和 SPACE 覆盖率。例如，Phi-4-mini 的准确率从 0.4296 提升至 0.5192。但 SPACE 压力测试表明答案空间诊断仍具挑战，Qwen2.5-7B 的 SPACE 准确率仅为 0.3074。该工作的主要贡献不是追求通用 SOTA，而是提供了一个可复现的推理时框架，用于在结构化可靠性约束下评估生物医学问答模型。

论文生物医学问答推理时可靠性答案融合 SPACE标签模型评估

推荐理由：生物医学问答领域终于有了一个关注可靠性而非单纯准确率的实用框架——HypothesisMed 让模型输出可解析、可审计，做医疗 AI 或临床决策支持的团队可以直接用这套管道评估自己的模型，避免模型自信犯错。

原文

12:06

arXiv: DeepSeek@Bin Zhu, Yanghui Rao

这篇论文研究了在有限人工标注预算下，LLM法官面板（多个LLM作为评估者）的校准策略选择问题。低维堆叠器（如标量或可靠性聚合）估计成本低但无法捕捉交互效应，而联合输出表可以建模交互但需要更多数据填充单元格。作者提出了一个有限校准机制图，并实例化为可部署的验证选择器。在RewardBench、LLMBar等基准测试中，使用7个法官（包括DeepSeek V4 Flash）的实验表明，标量/可靠性聚合在20个真实数据集-预算组合中赢了16个，说明当前法官输出往往是加性或冗余的。当存在六路交互时，联合输出表才显著优于标量方法（测试MSE从0.224降至0.061）。结论是，关键问题不是“需要多少法官”，而是下一个法官的信息在当前人工标签下是否可估计。

论文 LLM评估校准策略法官面板有限预算交互效应

推荐理由：做LLM评估或模型对齐的团队会关心：这篇论文给出了在有限标注预算下选择校准策略的实用指南，建议直接参考其机制图来优化你的法官面板配置。

原文

12:05

arXiv: DeepSeek@Jiashen Huang, Yu Jia, Xu Pan

一项针对405名中国用户的研究发现，对国内机构的信任显著影响用户对国产AI模型（如DeepSeek）的信任，而对ChatGPT等全球模型的影响较弱。研究提出“机构棱镜”框架，认为AI信任不仅是技术性能的反映，更是机构信任的折射。高机构信任增强用户对国产AI的情感信任，并使其认知评价更积极；低机构信任则削弱这一优势。该研究揭示了宏观治理与微观心理在AI信任形成中的关联，为理解不同国家AI信任差异提供了新视角。

论文机构信任 AI信任 DeepSeek ChatGPT 人机交互

推荐理由：做AI产品出海或研究人机信任的团队，这篇论文揭示了机构信任如何成为AI采纳的关键变量——理解这一点，比单纯优化模型性能更能解释用户选择。建议点开看看框架和问卷设计。

原文

12:05

arXiv: DeepSeek@Yiming Liao, Zeno Franco, Jose Eduardo Lizarraga Mazaba, Keke Chen

医疗大语言模型在临床决策支持中常出现幻觉，带来严重风险。现有基准缺乏真实临床背景，且对缓解幻觉的指导有限。Med-HEAL框架基于EHRNoteQA基准和MIMIC-IV数据，构建了幻觉数据集，通过LLM-as-a-Judge和人工审核双重标注。研究测试了自我批评和检索增强上下文学习两种策略，在五个开源模型上，自我批评策略显著提升了其中三个模型的准确性。该框架提供了可复用的数据集和实用方法，有助于医疗AI的安全部署。

论文医疗LLM 幻觉缓解上下文学习 EHR 开源/仓库

推荐理由：医疗AI的幻觉问题直接关系到患者安全，Med-HEAL给出了可落地的缓解方案——做临床NLP或医疗AI部署的团队，可以直接用其公开数据集和代码来评估和优化自己的模型。

原文

12:05

arXiv: DeepSeek@Bole Ma, Jan Eitzinger, Harald Köstler, Gerhard Wellein

72°

本文研究跨 GPU 实例的注意力机制优化问题。传统方法在查询需要访问其他 GPU 上的 KV 缓存块时，会移动缓存块到查询所在 GPU，但多查询注意力（MLA）将每个 token 的键和值压缩为窄向量，使得路由查询（约 1KB）比移动缓存块更便宜。作者在真实多节点 H100 集群上测量了跨实例 MLA 注意力，提出了拓扑感知成本模型和路由/获取/本地决策谓词，发现解码时路由查询可将缓存移动的约 3 毫秒开销降低到几十微秒。该模型不限于 MLA，可推广到 DeepSeek-V3.2、V4 和 GLM-5.1 等架构。

论文注意力机制 MLA 跨实例推理 GPU 集群成本模型

推荐理由：做大规模 LLM 推理部署的团队，这篇论文给出了跨 GPU 注意力优化的新思路——路由查询而非移动缓存，实测能大幅降低延迟。建议关注其成本模型和决策谓词，可直接用于优化自家推理系统。

原文

12:05

arXiv: DeepSeek@Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim

K-BrowseComp 是一个专门针对韩语环境的网页浏览智能体基准测试，包含 400 个问题。其中 300 个问题由韩语母语者手工构建和验证，前沿模型如 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 在该子集上仅达到 30.00-45.67% 的准确率，远低于 BrowseComp 的表现。韩国本土大模型表现更差，仅 0.00-10.33%。研究还构建了 100 个合成问题作为压力测试，最强模型仅达 26.00%。该基准填补了韩语智能体评估的空白，揭示了当前模型在非英语环境下的显著短板。

论文智能体基准测试韩语网页浏览 GPT-5.5 DeepSeek-V4-Pro GLM-5.1

推荐理由：做多语言智能体或网页浏览任务的团队会立刻意识到差距——韩语场景下最强模型准确率不到一半，说明现有评估严重偏向英语。做韩语 NLP 或本地化产品的开发者可以直接用这个基准测试自己的模型。

原文

12:05

arXiv cs.LG@William Dorrell

稀疏自编码器（SAE）在解析神经网络表征为可解释概念方面取得了成功，但其提取内容的科学结论尚不明确。本文避开传统的数据生成模型，直接研究字典学习最优解必须满足的性质。作者将局部最优性分析扩展到非负联合优化问题，推导出最优SAE特征与其分布之间的约束关系。这些约束解释了SAE的多种行为，包括层次分裂与吸收、残差结构以及密集对跖特征。最后，作者构建了一个新的大字典凸问题，探索了每个数据点对应大量原子的极限情况，为设计下一代SAE提供了理论指导。

论文稀疏自编码器可解释性神经网络表征字典学习理论分析

推荐理由：这篇论文为SAE的可解释性提供了理论根基，做可解释AI或模型控制的开发者可以直接参考其结论来设计更可靠的SAE变体。

原文

12:05

arXiv cs.LG@Ning Lu, Baijiong Lin, Shengcai Liu, Jiahao Wu, Haoze Lv, Yanbin Wei, Lingting Zhu, Shengju Qian, Xin Wang, Ying-Cong Chen, Qi Wang, Ke Tang

论文提出 PaW 框架，在强化学习训练语言智能体时，利用策略 rollout 中的动作-观测对作为世界模型监督信号，无需额外模拟器或推理计算。通过动作熵筛选数据、噪声容忍损失和自适应损失平衡三个组件，PaW 在多个智能体任务基准上显著优于纯 RL 基线。该方法解决了 RL 缺乏环境反馈监督的问题，让智能体不仅知道“做什么能得高分”，还理解“动作对环境的影响”。实验表明标准 RL rollout 即可提供有效的世界模型训练信号，降低了世界模型的应用门槛。

论文强化学习世界模型语言智能体 PaW 共训练

推荐理由：做语言智能体强化学习的团队，可以用 PaW 在现有 RL 流程中零成本加入世界模型监督，提升智能体对环境的理解能力，值得在项目中尝试。

原文

12:04

arXiv cs.AI@Yiheng Shu, Bernal Jiménez Gutiérrez, Saisri Padmaja Jonnalagedda, Yuguang Yao, Huan Sun, Yu Su

语言智能体在单个任务上花费大量推理时间，但跨任务的经验复用不足。现有基准难以严格评估持续学习，多聚焦长上下文检索或简单任务流，缺乏对跨任务关系的分析。本文提出AgentCL框架，通过受控任务流和迁移增益指标，评估智能体能否积累可复用经验、随时间改进并避免干扰。实验表明，受控流比简单流更能区分记忆设计的可塑性，而简单流和保留设置常暴露记忆导致的性能退化。该工作为设计平衡可塑性与稳定复用的记忆系统提供了方向。

论文持续学习智能体评估框架记忆设计语言模型

推荐理由：做智能体持续学习和记忆设计的团队，AgentCL提供了比现有基准更严格的评估方法，能帮你诊断记忆设计在跨任务复用中的真实效果，值得参考。

原文

12:04

arXiv cs.LG@Lei Yang, Siyu Ding, Deyi Xiong

该研究揭示了多域强化学习（RL）中一个关键问题：在数学推理、代码生成等单一领域训练会损害其他领域性能。现有解释（如灾难性遗忘或全局梯度冲突）不完整，因为即使全模型梯度几乎正交时，干扰仍会发生。研究发现，单域RL产生稀疏、小幅度的参数编辑，不同领域共享大量活跃计算路径，更新方向决定协同或冲突。基于局部扰动模型，作者证明后期训练主要通过二阶损伤项损害早期领域，该损伤集中在低维共享冲突子空间。通过短暂领域刷新（如代码→数学→问答→创意写作后重新训练数学），数学性能从57.66恢复至66.04，且其他领域性能保持良好，平均得分达66.39。此外，无训练的回滚方法也部分恢复了数学性能，提供了局部损伤的直接证据。

论文强化学习多域训练干扰恢复局部扰动 LLM后训练

推荐理由：该理论解释了多域RL训练中性能下降的机制，并提出了有效的恢复方法，对从事LLM后训练和多任务学习的开发者有直接指导意义，建议关注其刷新策略。

原文

12:04

arXiv cs.AI@Hilton Raj, Vishnuram AV

MASER 提出了一种轻量级框架，解决现有视觉语言模型（VLM）在3D环境中仅针对单一模态微调、忽略问题语义可能更适合其他模态的问题。该框架在共享VLM骨干上训练五个不同模态适配器（自然语言、RGB图像、点云、深度图、相机姿态），并通过神经路由策略在推理时根据问题选择最优适配器。在Open3D-VQA基准测试中，点云模态在51.5%情况下最优，MASER的路由准确率达到51.3%的oracle一致性，优于随机森林的43.5%，且每次推理仅需一次适配器调用。这项工作为具身智能体在3D空间中的多模态推理提供了高效解决方案。

论文具身智能 3D空间智能多模态路由视觉语言模型 Open3D-VQA

推荐理由：做具身智能或3D视觉问答的团队，终于有了一个不用暴力融合所有模态的轻量方案——MASER根据问题语义动态选最优模态，点云在超半数场景下最准，值得在Open3D-VQA上试试。

原文

12:04

arXiv cs.LG@Ruohao Guo, Wei Xu, Alan Ritter

大型语言模型在作为助手的同时，也可能被恶意用户利用，通过多轮交互放大危害，包括让新手生成专业有害内容，以及规模化执行有害操作。现有研究常忽略多轮对话中的危害累积。为此，研究者提出了HarmAmp基准，涵盖12类风险场景，并设计了TrajSafe主动监控器，通过探测用户真实意图和引导模型安全完成来干预有害轨迹。实验表明，TrajSafe能显著降低多轮交互中的危害，同时保持低过度拒绝率和模型通用能力。这项工作为缓解LLM交互中的细微安全风险提供了新范式。

论文 LLM安全多轮对话危害放大 HarmAmp TrajSafe

推荐理由：多轮对话中的危害放大是LLM安全部署的盲区，做AI安全或内容审核的团队可以关注HarmAmp基准和TrajSafe方案，直接用于评估和加固自己的模型。

原文

12:04

arXiv cs.AI@Deokhyung Kang, Hyounghun Kim, Gary Geunbae Lee

推理语言模型在复杂推理任务上表现优异，但在非英语输入上仍存在多语言推理差距，主要原因是语言理解失败。英语翻译可以缓解这一问题，但并非所有输入都需要翻译。为此，研究者提出 Luar（语言理解边界感知强化学习框架），训练模型在直接理解不可靠时选择性调用翻译。在多项多语言推理基准测试中，Luar 优于标准 GRPO 等方法，尤其在低资源语言上提升显著。该框架能避免不必要的翻译，并泛化到未见过的低资源语言。项目代码已开源。

论文推理模型多语言强化学习翻译开源/仓库

推荐理由：多语言推理场景下，翻译不是越多越好——Luar 教会模型在「不懂的时候才翻」，做多语言 NLP 或低资源语言应用的团队可以直接用这个框架来提升推理效率。

原文

12:04

arXiv cs.LG@Kaito Shiku, Ahtisham Fazeel Abbasi, Ryoma Bise, Yuichiro Iwashita, Kazuya Nishimura, Andreas Dengel, Muhammad Nabeel Asim

该研究提出了一种名为GC-MoE的新方法，用于从组织学图像和细胞位置预测单个细胞的基因表达，从而降低单细胞空间转录组学测量的成本。与现有方法不同，GC-MoE通过路由网络估计细胞类型概率，并软性地组合细胞类型特异性专家来预测基因表达，从而捕捉细胞间的表达变异性。该方法还引入了细胞类型特异性共表达感知预测器和轻量级细胞间交互注意力模块，以编码细胞类型依赖的基因程序。在公共单细胞空间转录组数据集上的实验表明，GC-MoE在性能上优于现有的单细胞和基于点的基线方法。这项工作为从组织学图像推断单细胞基因表达提供了更精确的工具，对生物医学研究具有重要意义。

论文空间转录组学专家混合模型细胞类型特异性组织学图像基因表达预测

推荐理由：做空间转录组学或计算病理学的研究者可以直接用GC-MoE替代昂贵的单细胞测序，从常规组织切片中预测单细胞基因表达，省成本又提精度。

原文

12:03

arXiv cs.AI@Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen

精选72°

MCP-Persona 是首个专门评估 LLM 智能体在真实个人化 MCP 工具上表现的基准。它覆盖了 Reddit、小红书、飞书、Slack 等主流社交和协作平台，测试智能体与个人账户和本地数据库交互的能力。实验发现，当前最先进的智能体在处理个人化工具时表现挣扎，凸显了该基准在识别和解决这些局限性的关键作用。该基准已开源，可供开发者直接使用。

论文 MCP/工具智能体基准测试个人应用开源/仓库

推荐理由：MCP-Persona 填补了现有基准忽视个人化工具交互的空白，做智能体开发和 MCP 工具集成的团队可以直接用它来测试和优化自己的模型。

原文

12:03

arXiv cs.LG@Zhiwei Gao, Liu Yang, George Em Karniadakis

现有神经算子评估主要依赖预测误差，但准确输出不代表模型学到了正确的局部动力学结构。研究者提出一种基于雅可比矩阵的谱审计方法，通过将网络输出对查询函数求导，得到学习到的切向算子，再投影到傅里叶模式上，揭示频率依赖增益、相位结构和跨模式耦合等局部谱特征。该方法在多个基准测试中发现了预测误差无法暴露的问题，如高频退化、错误相位恢复和提示-算子不一致。结果表明，预测精度和局部算子保真度是神经算子的两个独立属性，该框架可用于稳定性、敏感性和算子一致性的诊断。

论文神经算子谱审计雅可比矩阵 PDE代理模型局部动力学

推荐理由：这篇论文给做神经算子、物理信息学习或科学计算的团队提供了一个关键诊断工具——预测误差可能骗人，但雅可比谱审计能揪出模型学没学到真正的物理机制。做PDE代理模型或算子学习的建议点开看看，能帮你避免模型“看起来准、用起来崩”的坑。

原文

12:03

arXiv cs.AI@Bardia Mohammadi, Lars Klein, Akhil Arora, Laurent Bindschaedler

论文提出“幽灵工具调用”概念，指AI代理在投机执行未来工具调用时，向外部服务泄露用户意图的问题。即使代理后续放弃该分支，外部观察者已获取的信息无法撤回。作者提出“投机工具隐私契约”运行时抽象，将提交前的观察视为独立于状态变更的一等效应。原型系统评估了12种策略，发现只有发布时修改或抑制调用参数/目标的策略才能减少推断，事后过滤、只读限制和访问控制列表均无效。

论文 AI代理隐私保护投机执行工具调用论文

推荐理由：做AI代理安全与隐私的开发者会关心——投机执行加速了响应，却让用户意图裸奔给外部服务，这篇论文给出了可落地的运行时方案，值得研究隐私工程的团队细读。

原文

12:03

arXiv cs.LG@Zhensheng Wang, Xiaole Liu, Wenmian Yang, Kun Zhou, Yiquan Zhang, Weijia Jia

现有表格问答系统多聚焦于历史数据查询，无法进行面向未来的数值预测。为此，研究者提出了新任务——开放域表格问答的未来数据预测与推理，并构建了首个基于房地产数据的时序预测与推理数据集ODTQA-FoRe。该任务面临历史数据精准检索、LLM预测能力不足、多样化查询标准化回答等挑战。为解决这些问题，团队提出了TimeFore框架，将问题分解为检索器、预测器和分析器三个协作角色，分别负责SQL数据获取、外部时序模型调用和结果综合。实验表明，TimeFore在预测准确性和回答一致性上显著优于基线方法。

论文表格问答时序预测 LLM智能体数据集房地产数据

推荐理由：做表格问答或时序预测的团队终于有了专门的数据集和框架——TimeFore用LLM+外部模型解决了LLM本身预测不准的痛点，做数据分析和AI应用的开发者可以直接参考其协作架构。

原文

12:03

arXiv cs.LG@Mind Lab, :, Song Cao, Vic Cao, Kaijie Chen, Bunny Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Autumn Jin, Fancy Kong, Kyrie Lei, Alexy Li, Dawn Li, Ray Li, Theo Li, Wenhao Li, Jiayi Lin, Domini Liu, Heshan Liu, Kairus Liu, Logan Liu, Maeve Luo, Runism Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Maxwell Yao, Regis Ye, Wenlin Ye, Yanying Ye, Josh Ying, Danney Zeng, Salmon Zhan, Anya Zhang, Ruijia Zhang, Shiyang Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Sizer Zhou, Xinyue Zhu, Murphy Zhuang

本文重新审视参数高效微调（PEFT）的角色，提出将其视为在强大基础模型上附加的持久本地状态，而非仅作为全参数微调的廉价替代。研究围绕三个扩展维度展开：向上扩展（更强的共享先验使小适配器更有用）、向下扩展（研究适配器的最小可靠尺寸）以及向外扩展（大量持久适配实例共存）。MinT 基础设施示例展示了如何管理适配器的身份、版本、来源、评估和服务驻留。结果表明，PEFT 可以成为持久个性化模型的紧凑载体，而不仅仅是预算有限的微调替代方案。

论文参数高效微调个性化模型扩展性基础模型 MinT

推荐理由：这篇论文重新定义了 PEFT 的潜力——从省钱技巧变成个性化模型的基石，做大规模模型部署和个性化服务的团队值得关注，尤其是那些需要为每个用户维护独立模型状态的场景。

原文

12:02

arXiv cs.LG@Xinhao Song, Su Su, Sirui Song, Hongliang Wu, Wen Shen, Zhihua Wei, Gongshen Liu, Linfeng Zhang, Dongrui Liu

精选72°

多模态智能体正被期望替代人类操作界面，但 CAPTCHA 验证是服务商故意设置的自动化屏障。新提出的 HLL 基准测试通过交互式 CAPTCHA 评估智能体能否以类人方式突破这一防线，而非仅靠图像识别。测试覆盖多种验证类型，并引入杂乱网页、困难变体等现实压力因素。结果显示，当前前沿多模态智能体在定位、动作校准、状态追踪和过程一致性上存在明显短板，性能随验证类型和界面复杂度剧烈波动。该基准为衡量智能体在受保护工作流中替代人类的能力提供了具体测试平台。

论文多模态智能体 CAPTCHA 基准测试人机交互自动化

推荐理由：CAPTCHA 是 AI 替代人类操作的最后一道门槛，做智能体自动化或 GUI 操作的团队可以用 HLL 测试自家模型的实际突破能力，结果可能会让你重新评估部署策略。

原文

12:02

arXiv cs.AI@Yuyang Li, Zihe Yan, Tobias Käfer

多跳问答系统通常对每个问题都进行昂贵的检索，包括分解问题、多轮检索或搜索桥接实体，这增加了LLM调用的token成本。但分析发现，许多多跳问题通过单次RAG就能正确回答，因此对每个问题都进行额外检索浪费了预算。RASER是一种基于单次RAG和六个特征构建的廉价路由器，RASER-2决定是停止还是升级到PRUNE（额外检索），RASER-3在单次RAG、PRUNE和迭代检索IRCoT之间选择，且不额外调用LLM。在六个LLM和三个基准测试中，RASER在F1得分上与SOTA基线竞争，但token消耗仅为始终PRUNE的41-49%，且低于迭代和分解检索基线。

论文多跳问答 RAG 路由检索优化成本控制

推荐理由：RASER解决了多跳问答中检索成本过高的问题，做RAG系统或问答管线的开发者可以直接用这个轻量路由器来节省token预算，同时保持准确率。

原文

12:02

arXiv cs.LG@Arthur Kosmala, Stephan Günnemann, Meng Gao, Brandon Wood

分子动力学模拟因串行计算瓶颈难以提升单系统吞吐量。研究者提出 Langevin Speculative Dynamics (LSD)，一种分布式、模型无关的推测采样方法，借鉴语言模型和扩散模型中的推测采样思路，用草稿模型快速生成模拟步骤，再通过目标模型并行验证，并引入传输映射保证分布一致性。LSD 将推测采样扩展到二阶 Langevin 动力学，理论上推导了加速比与物理参数的关系，实验显示在不同系统和模型组合下实现 3-9 倍加速，且采样轨迹与目标模型分布一致。该方法有望大幅提升分子模拟效率，对计算化学、材料科学等领域的研究者具有实用价值。

论文分子动力学推测采样加速方法 Langevin动力学分布式计算

推荐理由：分子动力学模拟的串行瓶颈终于被打破——LSD 用推测采样实现 3-9 倍加速，做计算化学或材料模拟的团队可以直接尝试，无需修改现有模型。

原文

12:02

arXiv cs.AI@Marisa Ferrara Boston, Glen Hanson, Effi Georgala, JD Hudgens, Heather Frase

本文提出了一种针对生产环境中智能体系统的监控与分类方法，这些系统通常存在结构缺陷而非任务级错误。该方法从质量、适用性和效率三个维度，在运行内、跨运行和结构三个范围进行监控，利用变异系数作为特征信号。通过合成测试床（220次运行，120个文档包）验证，发现结构缺陷会掩盖任务级错误信号，而确定性分类可将97%的结果自动跟踪，仅2%需要人工调查。论文建议在集成缺陷解决后，监控应从结构表征过渡到错误检测再到可靠性跟踪。

论文智能体监控结构缺陷变异系数可靠性

推荐理由：做智能体系统部署和运维的团队会直接受益——这篇论文给出了一个实用的监控框架，帮你区分结构缺陷和任务错误，减少无效告警。建议点开看看，尤其是处理文档密集型工作流的团队。

原文

12:02

arXiv cs.LG@Henry Kasumba, Ronald Katende

该研究提出一种混合策略，利用物理信息神经网络（PINN）作为离网残差探针，为有限差分求解器提供自适应网格细化（AMR）指导。PINN在域内采样残差并转换为单元级指示器，引导网格加密，最终由经典有限差分求解器完成近似计算。在一维粘性Burgers方程测试中，PINN阈值细化方法仅用60个自由度即达到0.021067的相对L²误差，而均匀细化需192个自由度才达到0.022617，误差降低约67.5%。在2D和3D代理测试中，PINN残差能组织结构化细化并优于随机细化，但未持续超越梯度指示器。该方法将物理信息诊断能力融入经典求解器，在保持可靠性的同时提升计算效率。

论文物理信息神经网络自适应网格细化有限差分求解器计算效率 PINN

推荐理由：做偏微分方程数值模拟的团队，可以用PINN残差替代传统误差估计器来指导网格自适应，显著节省计算资源——60个自由度就能达到192个自由度的精度，值得在工程仿真中试试。

原文

12:02

arXiv cs.AI@Yuhua Liao, Zetian Wang, Qiangqiang Nie, Zhenhua Zhang

时间序列预测在基础模型支持下取得了快速进展，但统计预测结果往往需要结合业务上下文（如节假日、活动计划、外部事件等）才能成为决策就绪的预测。本文提出了“最后一公里预测”问题，并设计了一个基于 LLM Agent 的框架，该框架在预测模型之上运行，维护统一的工作空间，调用工具检索上下文证据，并在结构安全约束下将推理轨迹转化为显式的预测修订动作。系统还支持通过 map-reduce 分解进行长周期预测，并通过记忆库进行事后反思，确保可控和可审计。实际案例表明，LLM Agent 能有效弥合统计预测与业务就绪预测之间的差距。

论文时间序列预测 LLM Agent 业务上下文预测修订可审计

推荐理由：做时间序列预测的团队终于有了一个能处理业务上下文的实用方案——LLM Agent 自动整合节假日、活动等非结构化信息，让统计预测直接变成决策可用的结果，值得做预测的开发者点开看看。

原文

12:01

arXiv cs.LG@Leheng Chen, Zihao Liu, Wanyi He, Bin Dong

精选

Iteris 是一个专为计算数学开放问题设计的智能体研究系统，能自动生成数值实验、构造反例和证明草稿。在 Simons Workshop 的两个开放问题上，Iteris 产出了经专家验证的成果：一是共轭梯度法与随机坐标下降法在幂律谱下的渐近比较相图，二是证明 QR 分解列主元法在低相干性下仍可能失败。研究表明，智能体系统可参与计算数学研究流程，但人类验证仍不可或缺。

论文智能体计算数学 Iteris 开放问题数值实验

推荐理由：计算数学研究者终于有了能自动跑实验、找反例的 AI 助手——Iteris 直接参与开放问题攻关，做数值算法或优化理论的团队值得关注。

原文

12:01

arXiv cs.AI@Xiaolin Liu, Yilun Zhu, Xiangyu Zhao, Xuehui Wang, Yan Li, Xin Li, Haoyu Cao, Xing Sun, Shaofeng Zhang, Xu Yang, Zhihang Zhong, Xue Yang

精选72°

视频多模态大语言模型在长视频理解上进步迅速，但它们在捕捉短暂但关键的视觉证据（如几帧内的动作或状态变化）方面能力不足。Moment-Video 是一个新基准，包含 1000 个人工验证的视频问答对，覆盖 7 个领域和 25 个子类别，测试模型在时间发生、计数、动作描述和推理上的表现。评估 33 个模型后，最佳模型 Seed-2.0-Pro 准确率仅 39.6%，多数开源模型低于 25%，揭示了巨大差距。分析表明，密集帧采样能部分改善但无法消除瓶颈，长视频带来更强的定位挑战。这显示当前视频 MLLM 仍缺乏时间保真表示来捕捉和利用短暂但决定性的视觉证据。

论文视频多模态大语言模型基准测试时间保真度瞬间视觉事件 Moment-Video

推荐理由：视频 MLLM 开发者终于有了专门诊断时间保真度的基准——Moment-Video 直击模型在瞬间事件上的致命短板，做视频理解或模型评估的团队值得用它来检验自家模型。

原文

12:01

arXiv cs.LG@Antonin Oswald, Estelle Massart

该论文研究了用于对称正定矩阵分类的神经网络架构，重点分析了 SPDNet 中的同余层（输入矩阵左右乘以权重矩阵及其转置）。研究发现，对权重矩阵施加的半正交约束严重限制了这些层的表达力：在特定激活函数下，多层架构会坍缩为单层等效网络。这一表达力缺失源于半正交矩阵导致同余层丢失谱多样性，是庞加莱分离定理的直接推论。论文还比较了多种黎曼分类器，讨论了它们与同余层特征图的兼容性。该工作为设计更有效的 SPD 神经网络提供了理论指导。

论文 SPDNet 对称正定矩阵神经网络表达力黎曼分类器谱多样性

推荐理由：做 SPD 矩阵分类或流形学习的团队值得关注——论文揭示了 SPDNet 核心层的隐藏缺陷，看完你会重新审视自己的网络设计。

原文

12:01

arXiv cs.AI@Shuo Zhang, Chenqi Li, Tingting Zhu

长尾识别是深度学习中的难题，两阶段解耦范式中的自适应范数缩放技术虽有效，但依赖超参数调优，性能波动大。本文提出 Self-Adaptive Monotonic Normalization (SAMN)，通过 Pool Adjacent Violators Algorithm 直接对每类权重范数施加单调性约束，无需参数正则化，彻底消除超参数敏感性。SAMN 是一种通用策略，可无缝集成到其他方法中提升性能。在多个基准数据集上，SAMN 显著提升长尾识别准确率，常达到最优结果。

论文长尾识别自适应范数缩放超参数友好 SAMN 深度学习

推荐理由：做长尾识别或类别不平衡任务的开发者，终于可以告别调参噩梦了——SAMN 直接省去超参数搜索，即插即用还能涨点，建议试试。

原文

12:01

arXiv cs.LG@Anand Babu, Rogério Almeida Gouvêa, Gian-Marco Rignanese

本文综述了生成模型、多模态学习和闭环工作流在逆向材料设计中的最新进展。逆向材料设计从正向预测转向在物理约束下直接提出满足目标的候选材料。文章比较了变分自编码器、归一化流、自回归模型和扩散模型等主流生成模型，并讨论了如何通过表示选择、训练目标、采样时引导和后生成筛选来施加可行性约束。多模态学习融合晶体结构、热力学、电子信息、显微镜、光谱、加工背景和科学文本，构建更通用的化学空间表示。文章还分析了逆向设计策略，包括条件生成与潜在优化、贝叶斯优化、强化学习和主动学习，并指出了常见的失败模式如替代利用、多样性崩溃、分布偏移和稳定性-可合成性差距。

论文生成模型多模态学习逆向材料设计晶体结构建模闭环工作流

推荐理由：这篇综述系统梳理了逆向材料设计中的生成模型与多模态学习，做材料科学或AI驱动的发现研究的团队可以快速了解当前方法、失败模式和评估实践，节省大量文献调研时间。

原文

12:01

arXiv cs.AI@Hao Li, Jingkun An, Zijun Song, Pengyu Zhu, Rui Li, Hao Wang, Wendi Feng, Yesheng Liu, Lijun Li, Jin-Ge Yao, Lei Sha

精选

大型语言模型（LLM）与人类价值观对齐时，往往会损害通用能力，即“对齐税”。现有方法通过平衡双重目标来缓解，但依赖大量通用数据或辅助奖励模型。SafeSteer 提出，由于安全特征在输出分布中天然稀疏，对齐应进行局部修改而非全局权衡。该方法通过激活引导构建安全教师模型，并开发安全令牌选择算法，在训练中仅对这些令牌施加反向 KL 惩罚，从而保留通用能力。实验表明，SafeSteer 在七个安全基准上取得强安全性能，同时在五个通用能力基准上仅轻微下降，且仅需 100 个有害样本，无需任何通用数据，对齐成本降低超过 99%。

论文安全对齐策略蒸馏 LLM 激活引导对齐税

推荐理由：SafeSteer 用极低成本（100 个样本）解决了安全对齐损害通用能力的痛点，做 LLM 安全或对齐的团队可以直接参考其局部化蒸馏方法，大幅减少数据依赖。

原文

12:00

arXiv cs.LG@Yeganeh Marghi, Kelly Jin, Uygar Sümbül

最优传输（OT）在分布映射中提供了理论框架，但计算成本高且结果难以解释。新提出的最优混合传输（OMT）将传输对象从单个样本转向子总体混合，并将问题转化为严格双凸优化，保证唯一全局最小值。OMT 在理论上证明传输映射的稳定性，即底层分布的有限扰动导致传输计划的有限变化。通过将子总体建模为指数族分布，OMT 的计算复杂度仅与混合成分数量相关，而非样本量。在图像数据和单细胞 RNA 测序等大规模真实数据集上，OMT 展示了有效性和实用性。

论文最优传输混合模型双凸优化稳定性单细胞RNA测序

推荐理由：OMT 解决了大规模数据上最优传输计算昂贵且结果难解释的痛点，做分布对齐、数据融合或生物信息学的团队可以直接用这个框架来获得稳定且可解释的传输计划。

原文

12:00

arXiv cs.AI@Jonah Leshin, Manish Shah, Ian Timmis

精选

该研究提出了一种通过分析技能文件、记忆文件等文本编辑来测量智能体特质的方法。研究者将特质定义为文本嵌入空间中的方向，通过训练线性模型学习特质向量，并利用嵌入差异投影来评分任意技能编辑。在68个标注数据上，该方法对敏感数据获取倾向特质的符号分类准确率达91.2%，斯皮尔曼秩相关系数为0.82。该框架还支持智能体间通过可信中介评估技能文件更新，为自适应智能体的行为监控提供了新工具。

论文智能体行为追踪特质测量技能文件文本嵌入

推荐理由：这项研究解决了自适应智能体行为难以量化追踪的痛点，做AI安全、智能体行为分析的团队可以直接用这套方法评估模型特质变化，值得关注。

原文

12:00

arXiv cs.LG@Zhou Jiang, Yandong Wen, Zhen Liu

精选

一步式文本到图像生成器（如SD-Turbo）因单次前向传播即可生成图像而备受关注，但其偏好微调面临挑战。现有方法依赖策略似然、去噪轨迹或可微奖励梯度，难以直接应用。研究者提出Drifting Preference Optimization (DrPO)，一种在线偏好微调方法，通过从当前生成器采样候选图像，用目标奖励排序，并合成特征空间更新方向（非参数偶极偏好场加参考漂移），实现无需奖励梯度的训练。DrPO在SD-Turbo和SDXL-Turbo上评估，使用HPSv3和GenEval等基准，相比无奖励梯度的一步偏好基线提升了对齐效果，并在匹配有效批次设置下将HPSv3训练计算量降低3.51倍。该方法支持大型、黑箱或不可微奖励，且推理时仍保持单次生成调用。

论文一步生成模型偏好优化文本到图像 SD-Turbo 奖励函数

推荐理由：DrPO 解决了单步生成模型偏好微调的核心痛点——无需可微奖励或复杂去噪轨迹，做文本到图像生成的团队可以直接用黑箱奖励提升模型对齐度，训练效率还提升了3倍多，值得关注。

原文

12:00

arXiv cs.AI@Junxia Cui, Haotian Ye, Runchu Tian, Hongcan Guo, Jinya Jiang, Haoru Li, Chaojie Ren, Yiming Huang, Kaijie Zhu, Zhongkai Yu, Kun Zhou, Jingbo Shang

精选

扩散大语言模型（dLLMs）作为自回归（AR）模型的替代方案，通过并行或块解码实现更快推理，但其掩码语言建模公式与标准token级推测解码不兼容。AR模型利用因果掩码实现单次前向验证多个草稿token，而dLLMs依赖掩码token和双向注意力，导致有效上下文随去噪步骤变化，无法直接进行token级推测验证。为此，研究者提出SimSD，一种简单有效的推测解码算法，采用即插即用的掩码策略，为dLLMs提供时间上有效的token级上下文。该方法显式引入草稿模型的参考token，并设计注意力掩码调节其与当前步骤token的交互，使dLLMs能在单次前向前向计算草稿token的有效logits，恢复AR模型的验证能力同时保持dLLMs的并行解码优势。SimSD无需训练，可灵活集成KV缓存和块解码等加速技术，在四个基准测试中实现高达7.46倍的解码吞吐量提升，同时保持甚至改善平均生成质量。

论文推测解码扩散语言模型推理加速掩码策略训练无关

推荐理由：扩散语言模型终于有了实用的推测解码方案，做模型推理加速的团队可以直接集成SimSD，无需额外训练就能获得数倍吞吐提升，值得关注。

原文

12:00