09:42arXiv: DeepSeek@Yixuan Wang, Yiyang Zhou, Yiming Liang, Congyu Zhang, Fuxiao Liu, Jiawei Zhou, Huaxiu Yao精选72°论文提出ASSAY框架,通过随机遮蔽测量技能库中每个技能的因果贡献,发现个体技能对某些任务类型有帮助但对其他任务有害,全局筛选效果欠佳。ASSAY在AppWorld和tau-bench两个基准上,对DeepSeek-V3、GPT-4.1等7个基础模型进行测试。在AppWorld最难分岔上,DeepSeek-V3达到69.3%任务目标完成率,相对提升47.4%,超越所有已发表方法包括权重微调方法。在tau-bench零售环境中,GPT-4.1相对提升8.7%,超越o4-mini、o1和GPT-4.5。消融实验表明主要增益来自推理时按任务遮蔽技能,而非全局移除坏技能。论文ASSAYDeepSeek-V3GPT-4.1智能体技能库推荐理由:一篇教你如何让AI智能体更聪明的研究:不用改权重,光靠整理技能库就能让DeepSeek-V3和GPT-4.1冲上榜单第一,方法还开源了。原文
09:42arXiv: DeepSeek@Jiakai Li, Ke Qin, Rongzheng Wang, Yizhuo Ma, Qizhi Chen, Muquan Li, Shuang Liang大推理模型(LRM)常因过度思考生成冗余token,降低准确率。ASAG方法通过分析注意力分布推断推理状态,自适应调整生成策略。该方法无需训练,可即插即用,在DeepSeek-R1-Distill和Qwen3系列等主流模型上测试。在Qwen3-8B上,ASAG平均准确率提升3.2%,生成token减少约40%。论文ASAGDeepSeek-R1Qwen3推理模型注意力机制推荐理由:想减少推理模型输出废话?ASAG免费即插即用,在Qwen3-8B上准确率升3.2%还省近40%token,实打实的效果。原文
11:13arXiv cs.LG@Rohit Gandikota, David Bau精选论文发现视觉语言模型的LM骨干中存在一组称为gaze heads的注意力头,其注意力会追踪模型当前描述的图像区域。通过仅对top-100个gaze heads(少于全部9%)进行注意力掩码干预,能以83.1%的准确率引导模型描述指定的漫画面板,而随机干预无效。该干预同样适用于自然COCO图像,且机制在2B到32B参数规模及多种VLM架构中复现。该工作展示了通过机制分析实现无需重训的推理时多模态行为操控。论文VLMGaze Heads注意力头多模态模型可解释性推荐理由:操控VLM输出,像翻漫画一样准原文
11:13arXiv cs.LG@Constanza A. Molina Catricheo, Simon Boeder, Ting-Jia Guo, Giacomo May, Clément Berthelot, Devis Tuia, Friedrich Fedor Reinhard, Fabio Remondino, Benjamin Risse该研究发布了1.4 TB多模态无人机数据集,覆盖104棵含巢树木,包含27,945张RGB图像、111,780张多光谱图像及约7.81亿个3D点。语义分割基准测试中,Point Transformer V3在测试集上达到86.35% mIoU,优于KPConv和RandLA-Net。数据集结合光谱、空间与结构信息,可支持巢体积估计等生态应用,并为极端类别不平衡下的3D分割算法提供挑战性基准。论文NEST3D多模态3D分割语义分割数据集推荐理由:生态数据集,3D分割新基准原文
11:13arXiv cs.LG@Yining Huang该论文提出一种路由专用双适配器编辑器(Route-Specialized Dual Adapters),通过相关性路由器决定是否对提示应用编辑记忆,并训练编辑适配器和局部性适配器分别处理编辑和未编辑的提示。在CF、ZSRE和MQUAKE三个基准(各包含1000个案例)上,使用LLaMA-3.1-8B-Instruct模型时分别达到0.8180、0.8946和0.9922的概率偏好准确率,在Qwen3-8B上也表现一致。消融实验表明,性能提升主要来自分离编辑注入与非路由抑制的机制,而非单纯增加LoRA容量。论文知识编辑LLaMA-3.1-8B-InstructQwen3-8B参数高效微调路由推荐理由:论文教你如何让AI知识编辑更精准原文
11:12arXiv cs.LG@Ines Nolasco, Jules Cauzinille, Marius Miron, Gagan Narula, Milad Alizadeh, Emmanuel Fernandez, Matthieu Geist, Ellen Gilsenan-McMahon, Olivier Pietquin, Emmanuel Chemla, Sara Keen本研究使用88个eGeMAPS特征,对六个分类群的生物声学嵌入进行线性与非线性回归探针,揭示模型编码的语音特征。结果显示没有单一模型能覆盖全部特征空间,拼接嵌入性能最佳。Loudness特征编码最好(R²=0.76),F0最难恢复(R²=0.33)。通过交叉引用可恢复性与特征显著性(NMI),为模型选择提供数据驱动指导。论文bioacousticseGeMAPS语音特征模型选择可解释性推荐理由:选模型?看这个研究原文
11:12arXiv cs.LG@Francesco Capuano, Maximilian Eberlein, Fabrice Bourquin, Clemens Claudio Christoph两指平行夹爪在简单重定向任务中常需双臂操作,拟人灵巧手更接近人手但难以用于学习研究。ORCA 学习栈统一了低级控制、仿真、VR 头显等消费级平台的远程操作和手部重定向,并与 Lerobot 框架原生集成。研究团队通过 VR 头显收集手内重定向任务专家演示,训练自主策略并评估了结果。整个栈已开源,可作为可复现灵巧操作研究的基础。论文ORCALerobot灵巧手开源遥控操作推荐理由:灵巧手研究的统一开源平台原文
11:12arXiv cs.AI@Michael Goodale, Salvador MascarenhasFodor和Pylyshyn提出的系统性挑战认为,人类语言理解具有双向条件依赖(如理解"John saw Mary"就能理解"Mary saw John"),而神经网络无法解释。Lake和Baroni的元学习组合性协议声称已匹配人类系统性,但本文实验发现,该模型在分布外规则上表现困难,甚至在分布内任务中也出现非系统性行为。作者结论是Fodor和Pylyshyn的挑战仍未得到满足。论文FodorPylyshynLakeBaroni元学习系统性神经网络认知科学推荐理由:论文证明神经网络还解不开这个经典难题原文
11:12arXiv cs.AI@Pengxin Wang, Lihao Guo, Yi Xie, Bo Liu, Siyang Cao, Jingdi Chen本研究提出了偏好协调多智能体策略优化(PCMA),用于解决合作多目标多智能体强化学习中的冲突问题。PCMA为每个智能体学习协调的个性化偏好,使智能体在多个目标(如效率与公平)之间形成互补性权衡。理论证明,在一定条件下,偏好多样性可通过一阶改进分解推动团队整体提升。在多个合作多目标环境及实际交通控制场景中,PCMA同时提升了任务性能和权衡协调能力。论文PCMA多智能体强化学习多目标优化偏好协调推荐理由:让多智能体学会互相配合完成多目标任务原文
11:12arXiv cs.AI@Nicole Villavicencio-Garduño, Maksim Ekin Eren, Milo Prisbrey, Ben Migliori, Michael Teti研究表明,针对计算机视觉应用的声学对抗攻击可利用20千赫兹以下的可听声波共振商用摄像头,导致AI模型(如YOLO11)出现误分类、漏检或幻觉。相比先前使用超声波(>20千赫兹)的短距离攻击,低频声波传播距离更远。实验分析了图像分辨率、目标尺寸等特征对攻击成功率的影响,为防御策略提供了依据。论文YOLO11声学攻击对抗攻击AI安全计算机视觉推荐理由:可听声波让YOLO11误判原文
11:12arXiv cs.AI@Xinyu Qiu, Yunzhu Zhang, Heng Jia, Shuheng Shen, Changhua Meng, Linchao ZhuGRPO在GUI接地训练中因单视图采样导致有效信号不足。VISTA框架从多个保持目标元素可见的裁剪视图中构建比较组,并添加自验证跨视图锚点。在五个GUI接地基准上持续提升,ScreenSpot-Pro上Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7分别升至63.4/65.8/67.0。鲁棒性分析显示最差视图准确率更高、预测翻转率更低。论文VISTAGRPOGUI GroundingQwen3-VL智能体推荐理由:多视图训练让GUI定位更准原文
11:12arXiv cs.AI@Wei Wu论文对自2026年3月持续生产的个人助手LLM Agent运行时进行8周纵向研究,系统包含约40个定时任务、8个LLM供应商、4286个单元测试和827个治理检查。记录22起事故,识别出至少28次“静默故障”实例,归纳为5类机制导向分类(A环境平台异常、B设计假设不匹配、C错误吞噬稀释、D链式幻觉与捏造、E操作遗漏与取证盲点)。D类为LLM特有且最危险——系统不仅不报告错误,还将其转化为流畅可信的叙事呈现给用户,作者称为“fail-plausible”。关键发现:约70%静默故障由人类用户视角观察发现而非测试或审计捕获;事故延迟从13小时到60天不等,与故障机制相关而非代码复杂度。论文LLM Agentsilent failurestaxonomy生产环境智能体推荐理由:彻底揭示LLM Agent为何会‘平静地撒谎’原文
11:12arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi论文对DiffusionGemma 26B(基于Gemma 4的掩码离散扩散MoE模型)进行解码顺序测量,在686-prompt六场景测试中发现其提交令牌既非并行也非块自回归,而是部分从左到右偏置。偏置强度随分析粒度平滑增强,块大小实为测量伪像而非架构属性。模型以大批量同时提交令牌,批量内顺序多数未定义,行为依赖场景:结构化JSON提交顺序任意,数学推理中位置置信度与正确性相关但事实回忆无信号。提交在预算内晚期爆发,任务准确率与自回归Gemma 4相当。核心贡献是方法论:正确测量需处理尾部EOS填充、场景混淆、提交非单调性、块大小敏感性和大批量平局等混淆因素。论文DiffusionGemmaGemma 4掩码扩散模型解码顺序MoE5 个信源在谈推荐理由:解析扩散模型真实解码行为原文
11:12arXiv cs.AI@Xiaoxin Lu, Ranran Haoran Zhang, Rui ZhangSIMMER是一个基于人类策划的厨房领域符号世界模型的新基准,包含77个动作、262个独特物体和约46,800种语义真实的交互。实验在六个LLM上进行,前沿模型错误率最高仅17%,最多56%的计划包含潜在失败,其中多数导致不可逆后果。通过反事实预测模拟,潜在失败可减少72%,不可逆情况减少75%。该基准揭示了现有评估忽略的关键失败类型。论文SIMMERLLM世界模型智能体规划推荐理由:新基准暴露LLM规划隐藏盲区原文
11:12arXiv cs.LG@Benjamin Alheit, Siddhant Kumar, Mathias Peirlinck本文提出CANN-EUCLID方法,结合可解释的本构人工神经网络(CANN)与无应力监督的全场发现框架EUCLID,从位移场和反作用力中识别稀疏超弹性定律。在各项同性和各向异性基准测试中,当真实法则可由所选CANN基表示时,方法以近乎精确的精度恢复正确项,包括带嵌入参数的指数项。当基不包含真实法则时,方法保留共享项并使用可用基函数近似缺失贡献。泛化能力强烈依赖于采样的变形状态,指数应变硬化项在充分探测时可准确恢复,但在硬化区域外插时会产生较大误差。正向FE验证仿真表明,发现的行为准确复现了真实法则。论文CANNEUCLID无监督学习本构模型发现全场数据推荐理由:论文提出无需应力的本构模型发现新方法原文
11:12arXiv cs.LG@Claire M. He, Genevera I. AllenCluster LOCO 是一种模型无关的聚类特征重要性打分方法,基于特征遮挡和聚类泛化性。它通过衡量移除某个特征后聚类标签在留出样本上的预测准确度下降来量化特征重要性。研究提出了基于数据划分的Cluster LOCO-Split和面向大规模数据的Cluster LOCO-MP(minipatch集成版)。在合成数据和单细胞转录组学的细胞类型发现任务中,Cluster LOCO比现有方法更可靠地恢复有信息量的特征。论文Cluster LOCO特征重要性聚类解释可解释性单细胞转录组学推荐理由:能解释聚类结果依赖哪些特征原文
11:12arXiv cs.AI@Hongzhan Yu, Chenghao Li, Ruipeng Zhang, Henrik Christensen, Sicun Gao生成式动力学模型用于机器人规划,但需可靠检测策略导致的分布外(OOD)转换。现有方法将动力学视为固定并附加后验支持代理,但当动力学对关键动作选择局部不敏感时可能失败。本文提出支持条件控制敏感性正则化,在训练区域促进对控制输入的敏感响应,同时限制弱经验支持下的不稳定外推。在视觉避障、操作和真实机器人导航实验中,该方法提升了OOD检测和闭环规划安全性。论文Sensitivity ShapingLatent ModelingOOD检测机器人动力学模型推荐理由:新正则化法让机器人更安全原文
11:12arXiv cs.AI@Jassem Manita, Aziz AmariarXiv上传一篇论文,系统分析了SymPy、LLVM、matplotlib、OpenInfra、Apache软件基金会和Linux基金会6个开源组织的AI贡献策略。研究采用最相似系统设计,通过指标编码和过程追踪,推导出披露、责任、人类监督、许可、执行、维护者工作量六维分类法和政策成熟度评分。论文将维度映射到EU AI Act、NIST AI RMF(含UC Berkeley Agentic AI Profile)及ISO/IEC 42001和23894框架,识别出当前双方均未覆盖的治理空白,并提出了协调的分层框架雏形。论文SymPyLLVMmatplotlib开源治理AI安全推荐理由:用六维模型看清开源AI治理的空白原文
11:12arXiv cs.LG@Armand de Villeroché, Sibo Cheng, Vincent Le Guen, Marc Bocquet, Rem-Sophia Mouradi, Patrick Armand, Alban Farchi, Patrick MassinTransformer神经算子在复杂几何PDE求解中表现出色,但现有方法假设固定域大小限制泛化。本文提出可分解注意力偏置与旋转位置编码,实现空间局部性和平移等变性,使模型在训练域2倍、4倍更大的域上零样本推理。在2个PDE基准(Navier-Stokes、Darcy)和1个3D工业大气流动应用中,该方法显著提升零样本泛化性能。代码和数据集已公开在GitHub。论文Transformer神经算子零样本泛化Domain extension推荐理由:零样本推理更大域的新方法原文
11:12arXiv cs.AI@Ravi Ranjan, Utkarsh Grover, Xiaomin Lin, Agoritsa PolyzouTransformer ASR模型如Whisper预测难解释。LEAF-X框架结合熵引导注意力加权、多层注意力展开和因果消融,定位低熵高影响头与层,生成稀疏token-帧归因。相比扰动解释器或原始注意力图,LEAF-X更好反映模型计算,忠诚度提升32%,局部性/稀疏性增强35-39%,归因最稳定。论文WhisperLEAF-X可解释性TransformerASR推荐理由:Whisper解释性更好用了原文
11:12arXiv cs.AI@Pollob Chandra Ray, Sabah Binte Noor, Fazlul Hasan Siddiqui本研究提出基于时间规划的框架,用于异构铁路系统中的动态路径优化和中断管理。框架使用PDDL 2.1明确建模轨距兼容性约束和多种中断场景,包括轨道阻塞、引擎故障等。开发了包含200个实例的基准问题集,其中最多涉及1,000个轨道点和120列火车。实验采用两种先进时间规划器和验证器评估,证明该框架能有效生成时序运营计划并减少人工决策依赖。论文PDDL 2.1异构铁路系统时间规划动态路径优化中断管理推荐理由:铁路调度自动处理中断原文
11:12arXiv cs.AI@Aray Karjauv这篇论文指出,现代图像分类器使用的全局平均池化(GAP)加线性分类头的结构,使图像级logits等于特征网格上逐点分类后logits的平均值。这种线性性意味着标准分类器本质上是多实例学习器(MIL),将图像视为空间实例的包。实验发现,即使图像级预测错误,分类器仍在特征网格中保留了空间类别证据,且现成模型(off-the-shelf models)能稳定恢复前景区域的地面真实类别。该研究将GAP隐藏的空间信息重新提取出来,为模型诊断提供了新思路。论文GAP多实例学习图像分类分类器MIL推荐理由:用GAP隐藏的空间证据诊断分类错误原文
11:12arXiv cs.LG@Shadi Heenatigala, Hasanika Samarasinghe该研究利用一年高分辨率运营数据,提出统计与机器学习框架表征氢基多能源系统。统计分析显示太阳辐照度解释了氢产量45.7%的秩基方差,且仅高辐照期触发电解槽有效运行。随机森林模型将风能输出排在预测重要性首位,尽管其二元相关性仅为r=0.167,揭示了非线性动力学。序列模型利用24小时自相关r=0.845实现运营预测,强化学习代理优化了氢收益调度。论文随机森林强化学习序列模型氢能机器学习推荐理由:用随机森林和强化学习优化氢能调度原文
11:12arXiv cs.AI@Jianzhe Lin论文发现验证器驱动的自DPO方法在视觉语言模型自改进中存在任务特异性问题。在MathVista、MMMU和BLINK上用开源验证器阶梯测试,同一验证器在MathVista上提升Qwen-3-VL-2B学生模型,但在MMMU上验证器准确率降至8%-23%,导致学生模型性能下降3.4-10.9个百分点。该现象在Qwen-2.5-VL-3B上复现。论文给出基于方差定理的机械论解释,指出目标任务验证器质量而非参数量才是关键。论文Qwen-3-VL-2BMathVistaMMMU视觉语言模型自改进推荐理由:验证器在新任务上会拖后腿原文
11:12arXiv cs.AI@Jan Batzner, Sree Harsha Nelaturu, Anastassia Kornilova, Jon Crall, Tommaso Cerruti, Yanan Long, Yifan Mai, Sanchit Ahuja, Asaf Yehudai, Marek Šuppa, John P. Lalor, Oluwagbemike Olowe, Jatin Ganhotra, Brian H. Hu, Eliya Habba, Andrew M. Bean, Chang Liu, Sander Land, Steven Dillmann, Aniketh Garikaparthi, Elron Bandel, Saki Imai, James Edgell, Wm. Matthew Kennedy, Jenny Chim, Patrick Meusling, Asteria Kaeberlein, Venkata Ramachandra Karthik Chundi, Manasi Patwardhan, Martin Ku, Austin Meek, Leon Knauer, Brian Wingenroth, Srishti Yadav, Usman Gohar, Felix Friedrich, Michelle Lin, Jennifer Mickel, Arman Cohan, Stella Biderman, Irene Solaiman, Zeerak Talat, Anka Reuel, Mubashara Akhtar, Gjergji Kasneci, Avijit Ghosh, Leshem Choshen论文提出Every Eval Ever,首个共享元数据模式和社区众包仓库,用于标准化AI评估结果。该模式将评估表示统一为单一JSON文档,支持从评价工具、论文等多种来源导入,并可存储每个实例的输出以进行细粒度分析。当前社区数据库已包含22,235个模型、2,273个独特基准和31种评估格式。论文还提供了自动转换器,从流行格式和评价工具转换到统一模式。论文Every Eval EverAI评估评估标准化元数据模式社区仓库推荐理由:统一了AI评估结果格式原文
11:12arXiv cs.LG@Hamidou Tembine论文揭示PCA存在"风险阴影"现象:保留99.9999%方差时可能完全抹去罕见灾难事件信号,使最佳分类器退化为常数预测。根源在于方差最大化与尾部风险意识间的根本错配。作者提出Expectile PCA(ExPCA)和Tail-Preserving PCA(TP-PCA)两种方法,通过向高影响事件重加权数据协方差来打破阴影。在合成数据和真实信用卡欺诈基准上,ExPCA在保留罕见事件信息方面严格优于标准PCA。论文PCAExPCATP-PCA降维高风险决策推荐理由:揭穿PCA隐患,新方法更管用原文
11:11arXiv cs.AI@Taym Alshoghri, Deemah H. Tashman, Mohammad Reza Gerami, Soumaya CherkaouiIoMT设备资源受限且处理敏感健康数据,联邦学习中模型更新可能泄露隐私。量子计算威胁传统加密,需集成后量子密码(PQC)。该文提出基于Kubernetes的框架,在Raspberry Pi测试床上验证。分布式加密处理延迟比顺序设计低32%,资源开销可控。框架为联邦学习IoMT系统提供安全编排与通信方案。论文IoMT联邦学习后量子密码边缘计算推荐理由:联邦学习+后量子医疗数据保护原文
11:11arXiv cs.LG@Carlo Di Cicco该论文使用Qwen3-4B-Instruct模型在444个LiveCodeBench任务上研究代码正确性信号。首次尝试的代码正确性可从提示最终隐藏状态线性解码,无泄漏AUC为0.931±0.008。去除提示长度线性效应后AUC仍为0.911±0.010,高于基线0.754±0.014。在236个修复案例中,隐藏状态变化存在对比方向,但去除修复上下文协变量后不显著,表明其为修复上下文相关特征。论文Qwen3代码正确性隐藏状态LiveCodeBenchLLM可解释性推荐理由:论文揭示Qwen3隐藏状态如何预测代码正确性原文
11:11arXiv cs.AI@Zihao Li, Ranpeng Qiu, Yincong Chen, Guoqiang Ren, Weiming Zhi该论文提出TRACE,一种针对延迟证据视觉运动模仿任务的记忆框架。TRACE使用路径签名(path signatures)作为轨迹条件键,从固定大小潜在记忆中写入和检索早期可见的视觉证据。在真实世界长时操作任务中,TRACE相比短历史基线(1-step history)和循环记忆(GRU)提升了分支选择准确率。实验显示TRACE在视觉模糊分支点任务上的成功率超过基线方法15-30%。论文TRACEpath signaturesdelayed-evidence模仿学习机器人操作推荐理由:用路径签名记住消失的视觉线索原文
11:11arXiv cs.LG@Abdellah Aznag, Rachel Cummings, Adam N. Elmachtoub本文研究多组均值估计主动学习的 max-risk 目标:在 d 个臂中分配 T 次采样以最小化最坏情况不确定性指数 max σ_k²/n_k。作者提出局部最小最大化框架,证明首个针对该目标的一般下界,将难度分解为预算项、异质性指数和模型相关复杂度度量 VLC。VLC 可重参为方差-费希尔信息,并为常见分布族给出闭式解。与现有上界对比,在广泛场景下接近最优(对数因子内),但高异质性实例存在系统差距。论文active learningmulti-group mean estimationVLC复杂度度量统计学习理论推荐理由:新复杂度指标VLC揭示主动学习难度来源原文
11:11arXiv cs.LG@Mohammed Arif Mainuddin, Najifa Tabassum, Omar Ibne Shahid, Riasat KhanHumP-KD框架提出一种混合不确定性感知多阶段渐进知识蒸馏方法,用于高效火灾分类。在FlameVision(8600张)和Dataset-II(31309张)两个数据集上测试,从Swin-Tiny和ViT-Base两个冻结教师模型蒸馏知识到轻量MobileViT-S学生模型。在Dataset-II上,HumP-KD达到平均F1分数0.9876±0.0063,显著高于MobileViT-S基线(0.9537±0.0351),t检验p=0.0195。学生模型仅4.94M参数、19.01Mb大小,相对于Swin-Tiny参数减少5.7倍,CPU FPS达37.72。论文HumP-KDMobileViT-SSwin-TinyViT-Base知识蒸馏火灾分类推荐理由:直接提升小模型火灾分类精度原文
11:11arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi精选论文发现消费级Ampere GPU上扩散Transformer的INT8量化常因反量化回bf16而无法利用INT8张量核心。作者为Ideogram 4.0线性层设计了一个融合Triton INT8 GEMM内核,在Ampere张量核心上执行int8×int8→int32,并在epilogue中折叠逐token×逐通道反量化和偏置。该内核实现2.8-4.2倍于bf16的GEMM加速,并保持余弦相似度1.0且无NaN。端到端测试中,在单张RTX 3090上768px分辨率获得约9-10%提速,1024px生成耗时156.5秒,优于NF4(164.5秒)和FP8(172.9秒)基线,且PickScore/CLIPScore无质量损失。论文Ideogram 4.0RTX 3090INT8GEMM推理加速Triton2 个信源在谈推荐理由:INT8反超FP8,单卡RTX 3090跑1024px扩散模型原文
11:11arXiv cs.LG@Xihang Shan, Ye Luo本文提出配方控制的解码器审计(RCDA)用于结构知识图补全。以ComplEx和DistMult为主控对,辅以RotatE和TransE点检,在7个基准上评估。5个标准KG上ComplEx与DistMult的MRR差异在+0.005至+0.012之间。小KG上解码器效应更显著:Kinship中ComplEx优势达+0.143 MRR(6种子),UMLS中优势为+0.022 MRR(6种子)。YAGO3-10上,该配方下L=0的ComplEx在d=128时达到0.6971±0.0048 MRR。论文ComplExDistMult知识图谱补全解码器审计推荐理由:搞清解码器选择的关键因素原文
11:11arXiv cs.LG@Florian Hübler, Thomas Pethick, Suvrit SraMuon和Scion等非欧几里得优化方法在训练Transformer时表现优异,但其理论优势一直未明确。本研究证明在重尾非凸场景(随机梯度p阶中心矩有界,p∈(1,2])下,非欧几里得方法在更强的平稳性度量下达到最优样本复杂度,而欧几里得方法有额外维度依赖。对于m×n矩阵,Muon在核范数下找到ε-稳定点仅需O(min{m,n}Δ1L/ε^2(σ/ε)^{p/(p-1)})个样本,可吸收重尾噪声而无额外维度开销。实验在大型语言模型上验证了理论,并表明其他Schatten几何在某些设置下也可与Muon竞争。论文MuonScion优化算法理论分析非凸优化推荐理由:Muon为何能训练Transformer?原文
11:11arXiv cs.LG@Simone Di Gregorio, Anupam Gupta, Stefano Leonardi, Matteo Russo论文研究在线凸优化(OCO),其中学习者每轮使用一次δ-噪声成对探测比较两个点的损失。主要定理给出遗憾界O(min{√(dT ln T), (dT ln T)/(k|1-2δ|)}),该界对T、k和δ紧。即使探测预算k子线性,也能改进最坏情况遗憾。对于专家设置,在有限决策集上得到完全紧的速率。分析通过方差减少效应和二阶指数权重方法揭示探测收益。论文OCOPairwise Probes噪声探测遗憾界凸优化推荐理由:探测可降低在线学习遗憾原文
11:11arXiv cs.AI@Guanming Liu, Yuqi Ren, Hansu Gu, Peng Zhang, Weihang Wang, Jiahao Liu, Ning Gu, Tun LuStreamMemBench是一个针对智能体记忆的流式评估基准,基于EgoLife自我中心流构建两步任务序列。初始任务测试证据使用,后续任务测试反馈与交互经验的复用。基准包含证据回忆、初始证据使用、反馈整合和后续复用四项指标。实验在8个记忆系统、2个基础模型上显示,当前系统在证据使用和反馈转化为可靠行为方面常失败。论文StreamMemBenchEgoLife智能体记忆评估基准测试推荐理由:测测你的智能体记性原文
11:10arXiv cs.LG@Pedro Chumpitaz-Flores, My Duong, Juan S. Borrero, Kaixun Hua论文提出一种基于有限字典和预算约束的不确定性方向选择方法,将选定子集构成原子不确定性集,并推导出闭式支撑函数,使仿射目标的鲁棒优化可解。该方法通过数据驱动规则覆盖评估方向(如梯度、对抗扰动和留出数据偏移),并证明目标函数是单调且子模的,支持贪心算法达到(1-1/e)近似保证,同时给出匹配的难度下界。此外,论文提供选定子集损失的上界证书,以及带样本外控制的半径校准规则。论文鲁棒优化稀疏设计贪心算法近似保证推荐理由:教你用贪心算法选关键方向,逼近最优解。原文
11:10arXiv cs.AI@Chen Ying Claude, Zhihan Luo论文分析贝多芬Op. 27 No. 2的三个乐章,发现它们分别实现了流式、循环和周期位置编码三种ML架构。通过熵、Jensen-Shannon散度、不协和度等指标,得出四个反直觉发现:音乐“温度”由吞吐量而非分布宽度决定;最轻快的乐章不协和度最高;同一音高在不同乐章获得不同语境身份,类似NLP中语境vs静态嵌入。无监督聚类无需音乐理论输入即可恢复调性结构。逆声化实验编码分析特征为MIDI,量化编码-解码循环的手性,发现重建损失随n-gram阶数单调递增。论文BeethovenMoonlight SonataOp. 27 No. 2机器学习音乐分析推荐理由:音乐和AI结构的惊人对应原文
11:10arXiv cs.LG@Kai S. Yun, Zeyang Li, Navid AzizanPS2-RL是一种两阶段安全强化学习框架,第一阶段通过safe-arrival价值函数训练备份策略,隐含构建控制不变集。第二阶段利用可微投影层对RL策略进行端到端训练,严格保证安全约束。该方法在最高10维状态的机器人控制任务上评估,较此前可证明安全方法更可扩展且性能更优。PS2-RL不限制底层RL算法,可插入现有训练流程。论文PS2-RL安全强化学习可证明安全备份策略控制不变集推荐理由:安全RL扩展新解法原文
11:10arXiv cs.LG@Liou Tang, James Joshi, Ashish Kundu该论文针对机器遗忘(Machine Unlearning)的审计问题,给出信息论证明:对于凸ML模型,任何仅依赖行为信号(如模型输出)的审计方案,都无法在不泄露保留集成员信息的情况下识别未经充分遗忘的模型。实验在凸模型上强有力地支持该结论,并在非凸模型上也观察到类似的隐私-审计权衡。研究结果呼吁在现实审计者威胁模型下更谨慎地考虑隐私与审计的冲突,并为设计隐私保护的审计方案提供基础。代码已开源。论文Machine Unlearning隐私审计凸模型隐私保护推荐理由:论文证明行为审计会泄露隐私,给审计方案敲警钟原文