全部 AI 动态 · AI 热点

6月16日

09:42

arXiv: DeepSeek@Yixuan Wang, Yiyang Zhou, Yiming Liang, Congyu Zhang, Fuxiao Liu, Jiawei Zhou, Huaxiu Yao

精选72°

论文提出ASSAY框架，通过随机遮蔽测量技能库中每个技能的因果贡献，发现个体技能对某些任务类型有帮助但对其他任务有害，全局筛选效果欠佳。ASSAY在AppWorld和tau-bench两个基准上，对DeepSeek-V3、GPT-4.1等7个基础模型进行测试。在AppWorld最难分岔上，DeepSeek-V3达到69.3%任务目标完成率，相对提升47.4%，超越所有已发表方法包括权重微调方法。在tau-bench零售环境中，GPT-4.1相对提升8.7%，超越o4-mini、o1和GPT-4.5。消融实验表明主要增益来自推理时按任务遮蔽技能，而非全局移除坏技能。

推荐理由：一篇教你如何让AI智能体更聪明的研究：不用改权重，光靠整理技能库就能让DeepSeek-V3和GPT-4.1冲上榜单第一，方法还开源了。

原文

09:42

arXiv: DeepSeek@Jiakai Li, Ke Qin, Rongzheng Wang, Yizhuo Ma, Qizhi Chen, Muquan Li, Shuang Liang

大推理模型（LRM）常因过度思考生成冗余token，降低准确率。ASAG方法通过分析注意力分布推断推理状态，自适应调整生成策略。该方法无需训练，可即插即用，在DeepSeek-R1-Distill和Qwen3系列等主流模型上测试。在Qwen3-8B上，ASAG平均准确率提升3.2%，生成token减少约40%。

论文 ASAG DeepSeek-R1 Qwen3 推理模型注意力机制

推荐理由：想减少推理模型输出废话？ASAG免费即插即用，在Qwen3-8B上准确率升3.2%还省近40%token，实打实的效果。

原文

6月15日

11:13

arXiv cs.LG@Rohit Gandikota, David Bau

精选

论文发现视觉语言模型的LM骨干中存在一组称为gaze heads的注意力头，其注意力会追踪模型当前描述的图像区域。通过仅对top-100个gaze heads（少于全部9%）进行注意力掩码干预，能以83.1%的准确率引导模型描述指定的漫画面板，而随机干预无效。该干预同样适用于自然COCO图像，且机制在2B到32B参数规模及多种VLM架构中复现。该工作展示了通过机制分析实现无需重训的推理时多模态行为操控。

论文 VLM Gaze Heads 注意力头多模态模型可解释性

推荐理由：操控VLM输出，像翻漫画一样准

原文

11:13

arXiv cs.LG@Constanza A. Molina Catricheo, Simon Boeder, Ting-Jia Guo, Giacomo May, Clément Berthelot, Devis Tuia, Friedrich Fedor Reinhard, Fabio Remondino, Benjamin Risse

该研究发布了1.4 TB多模态无人机数据集，覆盖104棵含巢树木，包含27,945张RGB图像、111,780张多光谱图像及约7.81亿个3D点。语义分割基准测试中，Point Transformer V3在测试集上达到86.35% mIoU，优于KPConv和RandLA-Net。数据集结合光谱、空间与结构信息，可支持巢体积估计等生态应用，并为极端类别不平衡下的3D分割算法提供挑战性基准。

论文 NEST3D 多模态 3D分割语义分割数据集

推荐理由：生态数据集，3D分割新基准

原文

11:13

arXiv cs.LG@Yining Huang

该论文提出一种路由专用双适配器编辑器（Route-Specialized Dual Adapters），通过相关性路由器决定是否对提示应用编辑记忆，并训练编辑适配器和局部性适配器分别处理编辑和未编辑的提示。在CF、ZSRE和MQUAKE三个基准（各包含1000个案例）上，使用LLaMA-3.1-8B-Instruct模型时分别达到0.8180、0.8946和0.9922的概率偏好准确率，在Qwen3-8B上也表现一致。消融实验表明，性能提升主要来自分离编辑注入与非路由抑制的机制，而非单纯增加LoRA容量。

论文知识编辑 LLaMA-3.1-8B-Instruct Qwen3-8B 参数高效微调路由

推荐理由：论文教你如何让AI知识编辑更精准

原文

11:12

arXiv cs.LG@Ines Nolasco, Jules Cauzinille, Marius Miron, Gagan Narula, Milad Alizadeh, Emmanuel Fernandez, Matthieu Geist, Ellen Gilsenan-McMahon, Olivier Pietquin, Emmanuel Chemla, Sara Keen

本研究使用88个eGeMAPS特征，对六个分类群的生物声学嵌入进行线性与非线性回归探针，揭示模型编码的语音特征。结果显示没有单一模型能覆盖全部特征空间，拼接嵌入性能最佳。Loudness特征编码最好（R²=0.76），F0最难恢复（R²=0.33）。通过交叉引用可恢复性与特征显著性（NMI），为模型选择提供数据驱动指导。

论文 bioacoustics eGeMAPS 语音特征模型选择可解释性

推荐理由：选模型？看这个研究

原文

11:12

arXiv cs.LG@Francesco Capuano, Maximilian Eberlein, Fabrice Bourquin, Clemens Claudio Christoph

两指平行夹爪在简单重定向任务中常需双臂操作，拟人灵巧手更接近人手但难以用于学习研究。ORCA 学习栈统一了低级控制、仿真、VR 头显等消费级平台的远程操作和手部重定向，并与 Lerobot 框架原生集成。研究团队通过 VR 头显收集手内重定向任务专家演示，训练自主策略并评估了结果。整个栈已开源，可作为可复现灵巧操作研究的基础。

论文 ORCA Lerobot 灵巧手开源遥控操作

推荐理由：灵巧手研究的统一开源平台

原文

11:12

arXiv cs.AI@Michael Goodale, Salvador Mascarenhas

Fodor和Pylyshyn提出的系统性挑战认为，人类语言理解具有双向条件依赖（如理解"John saw Mary"就能理解"Mary saw John"），而神经网络无法解释。Lake和Baroni的元学习组合性协议声称已匹配人类系统性，但本文实验发现，该模型在分布外规则上表现困难，甚至在分布内任务中也出现非系统性行为。作者结论是Fodor和Pylyshyn的挑战仍未得到满足。

论文 Fodor Pylyshyn Lake Baroni 元学习系统性神经网络认知科学

推荐理由：论文证明神经网络还解不开这个经典难题

原文

11:12

arXiv cs.AI@Pengxin Wang, Lihao Guo, Yi Xie, Bo Liu, Siyang Cao, Jingdi Chen

本研究提出了偏好协调多智能体策略优化（PCMA），用于解决合作多目标多智能体强化学习中的冲突问题。PCMA为每个智能体学习协调的个性化偏好，使智能体在多个目标（如效率与公平）之间形成互补性权衡。理论证明，在一定条件下，偏好多样性可通过一阶改进分解推动团队整体提升。在多个合作多目标环境及实际交通控制场景中，PCMA同时提升了任务性能和权衡协调能力。

论文 PCMA 多智能体强化学习多目标优化偏好协调

推荐理由：让多智能体学会互相配合完成多目标任务

原文

11:12

arXiv cs.AI@Nicole Villavicencio-Garduño, Maksim Ekin Eren, Milo Prisbrey, Ben Migliori, Michael Teti

研究表明，针对计算机视觉应用的声学对抗攻击可利用20千赫兹以下的可听声波共振商用摄像头，导致AI模型（如YOLO11）出现误分类、漏检或幻觉。相比先前使用超声波（>20千赫兹）的短距离攻击，低频声波传播距离更远。实验分析了图像分辨率、目标尺寸等特征对攻击成功率的影响，为防御策略提供了依据。

论文 YOLO11 声学攻击对抗攻击 AI安全计算机视觉

推荐理由：可听声波让YOLO11误判

原文

11:12

arXiv cs.AI@Xinyu Qiu, Yunzhu Zhang, Heng Jia, Shuheng Shen, Changhua Meng, Linchao Zhu

GRPO在GUI接地训练中因单视图采样导致有效信号不足。VISTA框架从多个保持目标元素可见的裁剪视图中构建比较组，并添加自验证跨视图锚点。在五个GUI接地基准上持续提升，ScreenSpot-Pro上Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7分别升至63.4/65.8/67.0。鲁棒性分析显示最差视图准确率更高、预测翻转率更低。

论文 VISTA GRPO GUI Grounding Qwen3-VL 智能体

推荐理由：多视图训练让GUI定位更准

原文

11:12

arXiv cs.AI@Wei Wu

论文对自2026年3月持续生产的个人助手LLM Agent运行时进行8周纵向研究，系统包含约40个定时任务、8个LLM供应商、4286个单元测试和827个治理检查。记录22起事故，识别出至少28次“静默故障”实例，归纳为5类机制导向分类（A环境平台异常、B设计假设不匹配、C错误吞噬稀释、D链式幻觉与捏造、E操作遗漏与取证盲点）。D类为LLM特有且最危险——系统不仅不报告错误，还将其转化为流畅可信的叙事呈现给用户，作者称为“fail-plausible”。关键发现：约70%静默故障由人类用户视角观察发现而非测试或审计捕获；事故延迟从13小时到60天不等，与故障机制相关而非代码复杂度。

论文 LLM Agent silent failures taxonomy 生产环境智能体

推荐理由：彻底揭示LLM Agent为何会‘平静地撒谎’

原文

11:12

arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi

论文对DiffusionGemma 26B（基于Gemma 4的掩码离散扩散MoE模型）进行解码顺序测量，在686-prompt六场景测试中发现其提交令牌既非并行也非块自回归，而是部分从左到右偏置。偏置强度随分析粒度平滑增强，块大小实为测量伪像而非架构属性。模型以大批量同时提交令牌，批量内顺序多数未定义，行为依赖场景：结构化JSON提交顺序任意，数学推理中位置置信度与正确性相关但事实回忆无信号。提交在预算内晚期爆发，任务准确率与自回归Gemma 4相当。核心贡献是方法论：正确测量需处理尾部EOS填充、场景混淆、提交非单调性、块大小敏感性和大批量平局等混淆因素。

论文 DiffusionGemma Gemma 4 掩码扩散模型解码顺序 MoE

推荐理由：解析扩散模型真实解码行为

原文

11:12

arXiv cs.AI@Xiaoxin Lu, Ranran Haoran Zhang, Rui Zhang

SIMMER是一个基于人类策划的厨房领域符号世界模型的新基准，包含77个动作、262个独特物体和约46,800种语义真实的交互。实验在六个LLM上进行，前沿模型错误率最高仅17%，最多56%的计划包含潜在失败，其中多数导致不可逆后果。通过反事实预测模拟，潜在失败可减少72%，不可逆情况减少75%。该基准揭示了现有评估忽略的关键失败类型。

论文 SIMMER LLM 世界模型智能体规划

推荐理由：新基准暴露LLM规划隐藏盲区

原文

11:12

arXiv cs.LG@Benjamin Alheit, Siddhant Kumar, Mathias Peirlinck

本文提出CANN-EUCLID方法，结合可解释的本构人工神经网络（CANN）与无应力监督的全场发现框架EUCLID，从位移场和反作用力中识别稀疏超弹性定律。在各项同性和各向异性基准测试中，当真实法则可由所选CANN基表示时，方法以近乎精确的精度恢复正确项，包括带嵌入参数的指数项。当基不包含真实法则时，方法保留共享项并使用可用基函数近似缺失贡献。泛化能力强烈依赖于采样的变形状态，指数应变硬化项在充分探测时可准确恢复，但在硬化区域外插时会产生较大误差。正向FE验证仿真表明，发现的行为准确复现了真实法则。

论文 CANN EUCLID 无监督学习本构模型发现全场数据

推荐理由：论文提出无需应力的本构模型发现新方法

原文

11:12

arXiv cs.LG@Claire M. He, Genevera I. Allen

Cluster LOCO 是一种模型无关的聚类特征重要性打分方法，基于特征遮挡和聚类泛化性。它通过衡量移除某个特征后聚类标签在留出样本上的预测准确度下降来量化特征重要性。研究提出了基于数据划分的Cluster LOCO-Split和面向大规模数据的Cluster LOCO-MP（minipatch集成版）。在合成数据和单细胞转录组学的细胞类型发现任务中，Cluster LOCO比现有方法更可靠地恢复有信息量的特征。

论文 Cluster LOCO 特征重要性聚类解释可解释性单细胞转录组学

推荐理由：能解释聚类结果依赖哪些特征

原文

11:12

arXiv cs.AI@Hongzhan Yu, Chenghao Li, Ruipeng Zhang, Henrik Christensen, Sicun Gao

生成式动力学模型用于机器人规划，但需可靠检测策略导致的分布外(OOD)转换。现有方法将动力学视为固定并附加后验支持代理，但当动力学对关键动作选择局部不敏感时可能失败。本文提出支持条件控制敏感性正则化，在训练区域促进对控制输入的敏感响应，同时限制弱经验支持下的不稳定外推。在视觉避障、操作和真实机器人导航实验中，该方法提升了OOD检测和闭环规划安全性。

论文 Sensitivity Shaping Latent Modeling OOD检测机器人动力学模型

推荐理由：新正则化法让机器人更安全

原文

11:12

arXiv cs.AI@Jassem Manita, Aziz Amari

arXiv上传一篇论文，系统分析了SymPy、LLVM、matplotlib、OpenInfra、Apache软件基金会和Linux基金会6个开源组织的AI贡献策略。研究采用最相似系统设计，通过指标编码和过程追踪，推导出披露、责任、人类监督、许可、执行、维护者工作量六维分类法和政策成熟度评分。论文将维度映射到EU AI Act、NIST AI RMF（含UC Berkeley Agentic AI Profile）及ISO/IEC 42001和23894框架，识别出当前双方均未覆盖的治理空白，并提出了协调的分层框架雏形。

论文 SymPy LLVM matplotlib 开源治理 AI安全

推荐理由：用六维模型看清开源AI治理的空白

原文

11:12

arXiv cs.LG@Armand de Villeroché, Sibo Cheng, Vincent Le Guen, Marc Bocquet, Rem-Sophia Mouradi, Patrick Armand, Alban Farchi, Patrick Massin

Transformer神经算子在复杂几何PDE求解中表现出色，但现有方法假设固定域大小限制泛化。本文提出可分解注意力偏置与旋转位置编码，实现空间局部性和平移等变性，使模型在训练域2倍、4倍更大的域上零样本推理。在2个PDE基准（Navier-Stokes、Darcy）和1个3D工业大气流动应用中，该方法显著提升零样本泛化性能。代码和数据集已公开在GitHub。

论文 Transformer 神经算子零样本泛化 Domain extension

推荐理由：零样本推理更大域的新方法

原文

11:12

arXiv cs.AI@Ravi Ranjan, Utkarsh Grover, Xiaomin Lin, Agoritsa Polyzou

Transformer ASR模型如Whisper预测难解释。LEAF-X框架结合熵引导注意力加权、多层注意力展开和因果消融，定位低熵高影响头与层，生成稀疏token-帧归因。相比扰动解释器或原始注意力图，LEAF-X更好反映模型计算，忠诚度提升32%，局部性/稀疏性增强35-39%，归因最稳定。

论文 Whisper LEAF-X 可解释性 Transformer ASR

推荐理由：Whisper解释性更好用了

原文

11:12

arXiv cs.AI@Pollob Chandra Ray, Sabah Binte Noor, Fazlul Hasan Siddiqui

本研究提出基于时间规划的框架，用于异构铁路系统中的动态路径优化和中断管理。框架使用PDDL 2.1明确建模轨距兼容性约束和多种中断场景，包括轨道阻塞、引擎故障等。开发了包含200个实例的基准问题集，其中最多涉及1,000个轨道点和120列火车。实验采用两种先进时间规划器和验证器评估，证明该框架能有效生成时序运营计划并减少人工决策依赖。

论文 PDDL 2.1 异构铁路系统时间规划动态路径优化中断管理

推荐理由：铁路调度自动处理中断

原文

11:12

arXiv cs.AI@Aray Karjauv

这篇论文指出，现代图像分类器使用的全局平均池化（GAP）加线性分类头的结构，使图像级logits等于特征网格上逐点分类后logits的平均值。这种线性性意味着标准分类器本质上是多实例学习器（MIL），将图像视为空间实例的包。实验发现，即使图像级预测错误，分类器仍在特征网格中保留了空间类别证据，且现成模型（off-the-shelf models）能稳定恢复前景区域的地面真实类别。该研究将GAP隐藏的空间信息重新提取出来，为模型诊断提供了新思路。

论文 GAP 多实例学习图像分类分类器 MIL

推荐理由：用GAP隐藏的空间证据诊断分类错误

原文

11:12

arXiv cs.LG@Shadi Heenatigala, Hasanika Samarasinghe

该研究利用一年高分辨率运营数据，提出统计与机器学习框架表征氢基多能源系统。统计分析显示太阳辐照度解释了氢产量45.7%的秩基方差，且仅高辐照期触发电解槽有效运行。随机森林模型将风能输出排在预测重要性首位，尽管其二元相关性仅为r=0.167，揭示了非线性动力学。序列模型利用24小时自相关r=0.845实现运营预测，强化学习代理优化了氢收益调度。

论文随机森林强化学习序列模型氢能机器学习

推荐理由：用随机森林和强化学习优化氢能调度

原文

11:12

arXiv cs.AI@Jianzhe Lin

论文发现验证器驱动的自DPO方法在视觉语言模型自改进中存在任务特异性问题。在MathVista、MMMU和BLINK上用开源验证器阶梯测试，同一验证器在MathVista上提升Qwen-3-VL-2B学生模型，但在MMMU上验证器准确率降至8%-23%，导致学生模型性能下降3.4-10.9个百分点。该现象在Qwen-2.5-VL-3B上复现。论文给出基于方差定理的机械论解释，指出目标任务验证器质量而非参数量才是关键。

论文 Qwen-3-VL-2B MathVista MMMU 视觉语言模型自改进

推荐理由：验证器在新任务上会拖后腿

原文

11:12

arXiv cs.AI@Jan Batzner, Sree Harsha Nelaturu, Anastassia Kornilova, Jon Crall, Tommaso Cerruti, Yanan Long, Yifan Mai, Sanchit Ahuja, Asaf Yehudai, Marek Šuppa, John P. Lalor, Oluwagbemike Olowe, Jatin Ganhotra, Brian H. Hu, Eliya Habba, Andrew M. Bean, Chang Liu, Sander Land, Steven Dillmann, Aniketh Garikaparthi, Elron Bandel, Saki Imai, James Edgell, Wm. Matthew Kennedy, Jenny Chim, Patrick Meusling, Asteria Kaeberlein, Venkata Ramachandra Karthik Chundi, Manasi Patwardhan, Martin Ku, Austin Meek, Leon Knauer, Brian Wingenroth, Srishti Yadav, Usman Gohar, Felix Friedrich, Michelle Lin, Jennifer Mickel, Arman Cohan, Stella Biderman, Irene Solaiman, Zeerak Talat, Anka Reuel, Mubashara Akhtar, Gjergji Kasneci, Avijit Ghosh, Leshem Choshen

论文提出Every Eval Ever，首个共享元数据模式和社区众包仓库，用于标准化AI评估结果。该模式将评估表示统一为单一JSON文档，支持从评价工具、论文等多种来源导入，并可存储每个实例的输出以进行细粒度分析。当前社区数据库已包含22,235个模型、2,273个独特基准和31种评估格式。论文还提供了自动转换器，从流行格式和评价工具转换到统一模式。

论文 Every Eval Ever AI评估评估标准化元数据模式社区仓库

推荐理由：统一了AI评估结果格式

原文

11:12