10:17arXiv cs.LG@Hsing-Yu Chen, Jérôme Arjonilla, I-Chen Wu, Ti-Rong WuWallZero是基于AlphaZero的智能体,专为7x7棋盘上的WallGo游戏设计。它击败了两位参与研究的职业围棋选手,平均每局获得1.98倍领地。论文使用WallZero分析游戏公平性,发现Netflix剧集《The Devil's Plan》中的开局更平衡。相关代码已在GitHub开源。论文WallZeroAlphaZeroWallGo智能体策略分析推荐理由:想知道AlphaZero怎么攻克新棋类游戏?这篇论文有具体策略和实战战绩,干货满满。原文
10:17arXiv cs.LG@SongEun Kim, Seungyoo Lee, Edwin Fong, Hyungi Lee, Juho Lee论文发现LLM在多项选择问答中早期存在信念漂移,违背鞅性质。通过提出的提示预测重采样(PPR)方法,模型在多次重采样后信念自稳定并收敛。基于此,研究者进一步提出种子答案提示策略和自一致性损失微调方法。在多项选择QA基准测试中,这些方法显著减少信念漂移并提高预测一致性,且不牺牲准确性。论文LLM信念稳定性PPR鞅性质微调推荐理由:这篇论文发现了LLM回答重复问题时信念会自己稳定,还给了两种让模型更一致的方法,适合关注推理可靠性的读者。原文
10:16arXiv cs.LG@Viet-Hoang Tran, Vinh Khanh Bui, Tan Lai Ngoc, Nam Nguyen, Tuan Dam, Tan M. Nguyen该论文提出了一个统一框架,用于刻画现代神经网络架构(如使用GELU、SiLU、SwiGLU激活的前馈网络、具备正弦和旋转位置编码的多头注意力、以及多种门控设计的混合专家模型)中的梯度下降守恒定律。此前守恒定律仅在线性和ReLU网络中被理解。实验验证了所预测的不变量。论文GELUSiLUSwiGLUMixture-of-Experts守恒定律推荐理由:想知道GELU、多头注意力这些架构背后为什么有隐式偏好?这篇论文给出了严格的理论解释。原文
10:16arXiv cs.LG@Khoat Than精选该论文给出No-Free-Fairness定理,指出学习系统中不公平的三个根本来源。首先,当任务在子组上存在不可约成本时,任何决策规则必须在整体性能与子组差异间权衡,形成固有的公平-成本边界。其次,即使在理想无噪声场景下存在完全公平且准确的解,有限样本学习也会导致子组间非平凡差异,且强制执行严格相对公平可能使达到低成本所需样本数呈指数增长。最后,模型类限制可独立引发差异:若模型无法表示某子组的准确解,则公平性无法通过数据或训练实现。论文AI公平性公平-准确性权衡统计学习理论子组差异推荐理由:这篇论文用数学证明了公平和准确不可兼得,小样本会让偏见更严重,模型表达能力不够也不行。做AI公平的人都会引用它。原文
10:15arXiv cs.LG@Viet-Hoang Tran, Vinh Khanh Bui, Van-Hoan Trinh, Tan Lai Ngoc, Tan M. Nguyen精选这篇论文研究了Transformer中注意力机制的函数等价性,重点分析了sinusoidal和旋转位置编码(RoPE)两种变体。作者发现sinusoidal编码保留了普通注意力的等价结构,而RoPE显著减小了对称群,从而增强了表达力。这一发现为RoPE在实践中的流行提供了理论解释。论文还讨论了位置编码如何影响线性模式连接性,并通过对齐算法证明连接性的存在和变化关键依赖于位置编码。实验表明使用RoPE的Transformer在参数空间具有更少的函数等价性,有助于优化和泛化。论文TransformerRoPE位置编码注意力机制函数等价性推荐理由:这篇论文解释了为啥RoPE比Sinusoidal位置编码更受青睐——它减少了参数空间的对称性,让Transformer表达力更强。如果你好奇背后的理论,值得一看。原文
09:45arXiv cs.AI@Manon Reusens, Sofie Goethals, David Martens该论文正式提出LLM消费者行为理论,作为分析LLM代理自主消费决策的新领域。作者结合经典与行为经济学及NLP进展,形式化人类偏好如何通过LLM代理反映并聚合为市场需求。论文梳理了关于LLM决策、人类行为模拟和偏好提取的碎片化文献,指出在代理市场中理性与异质性等传统假设可能失效。文章未提供实证验证,而是勾勒研究范围并识别对齐、偏好表示和市场动态等开放问题。论文LLM消费者行为经济学智能体推荐理由:这篇论文把LLM当作消费决策的代理人来研究,从经济学角度提出了一个全新的理论框架,适合想了解人机交互市场动态的读者。原文
09:44arXiv cs.AI@Davide Domini, Gianluca Aguzzi, Lorenzo Pellegrini, Mirko Viroli, Lukas Esterle研究者提出C2FL,一种完全分布式的联邦学习方法。节点通过空间聚类自组织成学习组,反映环境地理结构。为应对时间漂移,每个节点结合经验回放与驻留时间感知的自适应平均步骤,逐步融入区域共识。合成实验表明,标准联邦学习策略在空间和时间漂移下准确率下降超过30%,而C2FL恢复至接近集中式训练的性能。论文C2FL联邦学习空间聚类时间漂移持续学习推荐理由:这篇论文用空间聚类和驻留时间自适应平均,解决了移动场景下联邦学习数据漂移的老大难问题,效果比标准FL好很多。原文
09:44arXiv cs.AI@Seyed Morteza Ahmadian, Paolo Monti, Carlos Natalino光网络需要意图驱动的闭环智能体管理以提升自主性。该论文首次提出T-API兼容的推理与行动(ReAct)循环。实验使用领域特定复合工具实现了90%的oracle验证正确率。与通用工具相比,token消耗节省了三倍。论文T-APIReAct光网络智能体推荐理由:这篇论文首次把ReAct循环和T-API结合到光网络管理里,领域专用工具准确率更高还省token,值得一看。原文
09:44arXiv cs.AI@Bin Wang, Heming Yang, Jinfang ShengMcWC模型分别建模周期、趋势和跨通道相关性。其多层循环性构建模块解耦循环信息,多层感知机提取通道间相关性,多级小波分解融合高低频信息。在六个真实世界数据集上达到最优性能,计算效率优于此前方法。论文McWC时间序列预测周期分解小波分解通道相关性推荐理由:这篇论文用McWC模型同时处理周期、趋势和通道相关性,在六个数据集上最准,算得还快,值得看。原文
09:43arXiv cs.AI@Yonghao Chen, Sicheng Yang, Rui Tang, Lei Zhu本文提出一种语义优先的潜在建模框架用于3D MRI重建与跨对比度合成。现有压缩架构存在三个问题:长程解剖连贯性保存不足、临床语义丢失、优化目标导致重建过于平滑。该方法引入Latent Harmonization Encoder (LHE)捕获全局解剖依赖,设计Semantic Recovery Block (SRB)从自监督语义教师注入高级先验,并采用Anatomy-aware Frequency Loss (AFL)保留诊断相关高频结构。在两个公开多对比度MRI数据集上的实验表明,该方法在重建保真度和跨对比度合成质量上均有一致改进。论文3D MRI跨对比度合成潜在建模LHESRB推荐理由:这篇论文针对3D MRI跨对比度合成中潜在空间语义丢失的问题,用LHE、SRB和AFL三个模块提升了重建质量,效果不错。原文
09:42arXiv cs.AI@Jinjie Shen, Wei Deng, Xian Hu, Daiguo Zhou, Jian LuanSTAR方法针对文本到图像生成的RL后训练中的奖励粒度不匹配问题,提出时空自适应奖励分配。它利用生成模型内的文本-图像注意力,在去噪步骤和生成过程中动态构建空间分配图,将组相对优势分配给更相关的潜在区域。以Stable Diffusion 3.5 Medium为基础模型,在GenEval、OCR文本渲染和PickScore三项任务上分别达到0.9759、0.9757和23.60的分数。论文STAR文本到图像生成强化学习Stable Diffusion奖励分配推荐理由:这篇论文提出STAR方法,通过空间和时间自适应分配奖励,让RL后训练更精准地优化文本到图像生成,效果在GenEval等基准上显著提升。原文
09:42arXiv cs.AI@Ruixin Song, Md Mahbub Alam, Zahra Sadeghi, Amilcar Soares, José F. Rodrigues-Jr, Gabriel SpadonMoCo-AIS提出一种基于 Momentum Contrast 的对比学习框架,用于学习船舶轨迹的嵌入表示。该框架在大型真实AIS数据集(包含多种航行行为与工况)上评估了多种主流深度学习模型。结果表明,MoCo-AIS在轨迹相似性学习任务上显著优于现有基线方法。同时,该框架为轨迹表示模型的评估提供了统一基准平台。论文MoCo-AIS轨迹相似性对比学习AIS船舶轨迹推荐理由:这篇论文给做轨迹相似性的人提供了一个现成的对比学习框架,用MoCo范式在真实AIS数据上测了多个模型,效果比基线好。原文
09:41arXiv cs.AI@Marco Aruta, Vadim Malvone, Aniello Murano, Domenico Parente, Luca Rizzuti研究人员提出一个神经符号框架,将大语言模型(LLM)集成到多智能体系统(MAS)模型检查流程中。LLM作为策略生成预言机,产生的候选策略由标准MAS模型检查器进行形式验证。该生成-认证架构利用LLM引导搜索大型组合策略空间,同时保持形式正确性。框架在NatATL逻辑中实例化,创建了首个包含4211个实例的NatATL策略合成数据集。使用开源Qwen3-32B模型时,认证管道的策略合成准确率达92%。论文LLM多智能体系统策略合成神经符号方法Qwen3-32B推荐理由:用LLM帮MAS做策略合成,再加形式验证保证正确性,Qwen3-32B跑出92%准确率,挺实在的方法。原文
09:41arXiv cs.AI@Andrea Santomauro, Luigi Portinale, Giorgio Leonardi本研究从理论和实验两方面分析了相似性位置编码(simPE)在旋转扰动下的鲁棒性。论文首先证明simPE通常不具备旋转不变性,但基于Lipschitz假设推导出其在Frobenius范数下的显式扰动界。实验在四个数据集(Arrow、Shapes、Digits、FashionMNIST)上进行,测试图像逐渐增大旋转角度,simPE在准确率、F1、精确率和召回率上均优于标准学习型位置编码,尤其在小到中等旋转角度下表现更优。论文simPE位置编码鲁棒性旋转不变性Transformer推荐理由:这篇论文证明了simPE在图像旋转下比标准位置编码更稳,用四个数据集给出了理论界和实验验证,做视觉Transformer的值得看。原文
09:40arXiv cs.AI@Jinghan Wu, Jing Li, Ivor W. Tsang, Xuetao Zhang论文提出即插即用的多模态指代消解方法 Plug-and-Adapt,无需在目标数据集上训练即可使用。该方法先利用视觉-语言对齐数据集预训练一个细粒度对齐模型,再通过证据理论融合视觉和类别线索进行相似度聚合。在 CIN 基准测试中,CoNLL F1 比现有专用方法提升 5.31%,比主流 VLLM 提升 2.12%。在掩码 CIN 和 VCR-MCR 数据集上验证了鲁棒性和泛化能力。论文Plug-and-Adapt多模态指代消解对齐模型证据理论CIN基准推荐理由:这篇论文提出不用大模型也能高性能做多模态指代消解,直接在 CIN 上就比专用方法和 VLLM 高 5% 和 2%,而且即插即用,挺实用的。原文
09:40arXiv cs.AI@Liangkai Hang, Junjie Yao, Zhiyu Li, Feiyu Xiong, Hongkang Yang, Zhi-Qin John Xu73°论文发现缩小参数初始化尺度能持续改善大语言模型的预训练效果,在推理密集型任务上提升最为显著,同时识别出两种常见训练设置会抑制该优势。研究揭示了初始化尺度的关键平衡点,并发现小初始化驱动参数先凝聚为低复杂度结构再扩展为丰富表示。基于此提出γ初始化规则——将初始化范围作为可调旋钮,默认使用小初始化几乎不增加成本即可改善训练和推理。论文初始化大语言模型推理预训练压缩推荐理由:发现一个几乎零成本的训练技巧:缩小初始化尺度能大幅提升大模型推理能力。原文
09:39arXiv cs.AI@Jessica McFadyen, Ole Jorgensen, Harry Coppock, Kevin Wei, Cozmin Ududec一项研究评估了12个前沿语言模型在7个基准上的表现,包括FrontierMath、TerminalBench和网络安全任务。研究发现,增加推理计算(如更大token预算和重复提交)能显著提升得分,例如在FrontierMath上提升达20%以上。固定预算的评估会低估新一代模型能力,因为它们在更大预算下能解锁并更可靠地解决难题。不同基准对推理缩放方法的依赖各异:重复提交对多数基准有效,但外部反馈仅在特定任务中有帮助。论文推理计算FrontierMathTerminalBenchLLM评估推荐理由:别被固定预算的基准分数骗了,这篇论文揭示了很多模型实际能力需要更多推理计算才能看出来。原文
09:38arXiv cs.AI@Julian Hoever, Gregor SchieleKANLib是一个模块化、可扩展且计算高效的Kolmogorov-Arnold网络(KAN)框架,统一了PyKAN、EfficientKAN和FastKAN等现有实现的核心概念。它支持两种基函数类型、自适应网格缩放、网格扩展及细粒度架构定制,并保持与PyTorch工作流的兼容性。在California Housing基准上,KANLib再现了参考KAN实现的预测行为,同时实现了有竞争力的计算效率。该框架允许探索超出标准KAN公式的架构变体,对预测性能影响微小。论文KANLibKANKolmogorov-Arnold Networks可解释性模块化框架推荐理由:想试KAN但被碎片化实现劝退?KANLib把PyKAN、EfficientKAN、FastKAN统一成一个高效框架,直接上手跑基准。原文
09:38arXiv cs.AI@Aueaphum Aueawatthanaphisut, Badri Raj Lamichhane该论文提出一个基于LLM编排的多智能体框架,将大数据即服务生命周期分解为数据摄取、数据清洗、特征工程、AutoML训练、模型评估、MLOps部署、监控和漂移检测等专业智能体。中央LLM编排层协调代理执行、验证中间输出、管理流程上下文并支持动态工作流组合。框架包含共享工件治理、可重复性支持、人在回路检查点和漂移感知反馈循环。在包含缺失值、分类变量、异常值、类别不平衡和模拟协变量漂移的受控表格基准数据集上,与手动ML、仅AutoML和单智能体LLM基线对比,该多智能体BDaaS管道实现了有竞争力的预测性能,并提高了工作流完成率、工件可追溯性、部署就绪度、可重复性和漂移恢复能力。论文LLM多智能体AutoMLMLOpsBDaaS推荐理由:这篇论文用LLM编排多个专业智能体,自动搞定数据工程到部署监控的全流程,比单智能体和纯AutoML更可靠,适合做生产级自动化参考。原文
09:38arXiv cs.AI@Koki Okajima, Yasutoshi Ida, Tsukasa Yoshida, Yasuaki Nakamura论文提出 Non-Negative Elastic Net (NNN) 解码,将检索视为联合解码问题,通过稀疏非负线性组合用文档嵌入重构查询嵌入。理论证明,对所有语料库,NNN 解码能处理稠密检索能处理的全部查询,并在有相关文档的语料库上额外处理稠密检索无法处理的查询。在多个基准测试上,对冻结嵌入应用 NNN 解码带来一致改进;端到端训练嵌入进一步超越稠密检索的所有指标。论文NNN decodingdense retrieval信息检索稀疏表示嵌入推荐理由:这篇论文提出一种叫 NNN 的解码方法,能比传统向量点积检索挑出更多样化的文档,在多个基准上都有提升,做搜索相关的值得看看。原文
09:37arXiv cs.AI@Guillermo Gil de Avalle, Laura Maruster, Shaina Raza, Christos Emmanouilidis新基准DiagFlowBench包含50张工业诊断流程图,转化为1676轮多轮对话,对比合规与偏离流程的输入。评估10个商业和开源模型发现,模型在识别超范围输入时表现差异大,常见错误是选择真实但上下文不合适的步骤。该基准揭示了基于文档的对话系统在输入偏离时容易被看似合理但错误的建议误导的脆弱性。论文DiagFlowBench诊断对话推理模型AI安全多轮对话推荐理由:DiagFlowBench这个新基准专门用来测语言模型在操作维护场景里,能不能识别用户问跑题的问题。10个模型测下来,差得挺大,而且那种看似合理但不对的答案最危险。论文值得一看。原文
09:31arXiv: DeepSeek@Siyue Chen, Yifu Guo, Yuquan Lu, Zishan Xu, Jiaye Lin, Jianbo Lin, Siyu Zhang, Cheng Yang, Junxin Li, Yujia Li, Yu Huo, Ruixuan Wang该论文提出了LLM代码推理的内部生命周期概念:模型先在早期层中酝酿答案,使其线性可解,然后在后期层分化为四种解析结果——已解析、过度处理、错误解析、未解析。研究对Qwen、Llama、DeepSeek三个架构的16个模型进行了6类代码推理任务的层析探针和上下文剥离解码(CSD)实验。结果显示已解析平均仅41.5%,且函数调用任务中,调用深度从1层增至3层时已解析率从61.1%骤降至2.5%。所有模型的酝酿持续时长稳定在24%-42%,但解析成功率随模型能力和规模变化。论文代码推理QwenLlamaDeepSeek推理模型推荐理由:这篇论文用层析探针找到了LLM做代码推理时“酝酿”到“解析”的秘密,发现即便准确率相近,内部失败模式也截然不同,值得想理解推理本质的人读。原文
09:27arXiv: DeepSeek@Filip Sondej, Yushi Yang, Adam Mahdi精选现有大模型遗忘方法(如GradDiff、NPO、SimNPO、RMU、UNDIAL)易被微调或少样本提示逆转,表明确实只是浅层遗忘。RepSelect通过每次更新前崩塌权重梯度的主成分,隔离遗忘集特定的表示,保持通用能力不受影响。在生物危害知识和虐待倾向两个遗忘类别上,对Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite四个模型族评估,RepSelect后学习准确率降低幅度是最好基线的4-50倍,且对少样本提示攻击接近完全鲁棒。论文RepSelectLlama 3Qwen 3.5模型遗忘AI安全1 个信源在谈推荐理由:这篇论文发现现有大模型遗忘只是表面记忆,新方法RepSelect能真正让模型忘记特定知识,还防微调和提示破解。原文
13:05arXiv cs.AI@Yanan Long公共AI评估常被当作终极排行榜,但实际证据是受报告规则和基准修订影响的选择性时间序列。研究使用LiveBench、Open LLM Leaderboard v2、LMArena、GAIA和tau-bench等档案进行贝叶斯推断。在固定报告约定下,一个仅包含1000个系统的终端示例与两个终端前历史兼容,在相同尾部模型下达到距离上限0.05内所需时间分别为23.03或75.13。候选选择感知的前沿模型在综合后验比较中失败。提出的档案与裁决协议重构了公共评估历史,验证了时间边界并驳斥了无支持的前沿声称。论文LiveBenchOpen LLM Leaderboard贝叶斯推断AI评估审计推荐理由:这篇论文用贝叶斯方法检查了LiveBench等公共AI评估档案,发现很多宣称有问题,帮你判断哪些基准成绩可信。原文
12:55arXiv cs.AI@Sara Fish该研究以EC 2025论文中一个关于公共物品稳定菜单的开放问题为测试平台,评估不同AI研究工作流的效果。实验发现:(1)在提示中加入人类直觉能提升LLM的“品味”;(2)多轮交互工作流在鼓励“大胆步骤”时更有效。与一名一年级博士生比较,LLM在解决该问题上的效果略逊一筹。研究尚未公开博士生参与前的原始手稿对比细节。论文EconCSLLM公共物品工作流AI研究推荐理由:这篇论文告诉你,用AI做经济学研究时,喂它人类直觉比纯指令好使,但别指望它比刚入行的博士生强多少。原文
12:54arXiv cs.AI@Truong Thanh Hung Nguyen, Khanh Van Quynh Nguyen, Hoang-Loc Cao, Tri Duong, Phuc Ho, Van Pham, Loc Nguyen, Hung Cao这篇论文提出一种基于共识的智能体大语言模型(LLM)框架,专为加拿大10位HTS代码分类设计。框架集成了多智能体信息检索、官方关税文档的语义检索、证据推理、共识验证、层次化代码组件投票以及人为干预机制。在包含3300条专家标注产品记录的数据集上评估,精确的10位分类对先进LLM仍具挑战性,性能从粗粒度章节级预测到细粒度关税和统计后缀逐步下降。结果表明需要证据驱动、不确定性感知和以人为中心的分类流程,而非完全自主的单步预测。论文HTSLLM智能体海关分类证据推理推荐理由:这篇论文提出了一个多智能体协作的LLM框架,通过证据推理和共识投票来提升海关HTS代码分类的准确性,特别适合物流合规场景。原文
12:53arXiv cs.AI@Kevin L Coakley, Thijs Snelleman, Holger Hoos, Odd Erik Gundersen该研究分析了2014至2024年间五大顶级AI会议发表的56800篇论文,评估其文档实践。结果显示,代码和数据共享比例从11%增至64%,增长了近六倍。基于文档实践推断的可重复性从28%提升至64%。这些改进在可重复性检查清单引入之前就已开始,反映的是开放科学趋势而非形式要求。论文可重复性AI研究开源科学文档实践推荐理由:这篇论文用56800篇数据告诉你,AI研究的可重复性在过去十年大幅提升,代码共享从11%涨到64%,而且不是靠强制清单推动的。原文
12:52arXiv cs.AI@Eduardo Ferreira da Silva, Mayki dos Santos Oliveira, Joel Machado Pires Denis Dantas Boaventura, Frederico Araújo Durão该论文系统评估了文本信息对矩阵分解推荐模型的实际贡献。作者提出了可学习的门控机制和交叉注意力机制,用于融合用户/物品主题分布和全文嵌入两种文本表征。在多个基于评论的数据集上测试了六种变体,发现即使自适应融合机制提升了表征灵活性,相对于协同过滤主干,文本信号的边际贡献仍有限。这表明在典型评分预测场景下,协同信息仍主导性能。论文Matrix Factorization推荐系统文本增强协同过滤评论推荐理由:这篇论文告诉你:别盲目堆文本特征做推荐,协同过滤本身已经很强了,加文本未必有多大提升。原文
12:52arXiv cs.AI@Alex Gichamba, Moise Busogi这篇论文通过控制帧率消融实验,发现神经音频编解码器在6.25 Hz处存在质量悬崖,并排除了音素冲突和码本饱和两种假设。作者指出问题源于固定训练片段时长导致解码器缺乏帧间上下文,而修正后词错误率(WER)在3.1 Hz和1.6 Hz下仍随音素负载平滑下降。研究结果表明,低帧率编解码器的推理效率增益比此前认为的更易实现。论文Neural Audio Codecs低帧率退化音素负载词错误率音频编解码器推荐理由:这篇论文解释了为什么音频编解码器在6.25Hz会突然变差,原来不是理论限制而是训练设置问题,修正后能降到1.6Hz依然可用。原文
12:28arXiv cs.LG@Abbas Mammadov, Ozgur Kara, Kaan Oktay, Iskander Azangulov, Adil Kaan Akan, Hyungjin Chung, James Matthew Rehg, Yee Whye Teh精选72°本文提出 Exact Posterior Score (EPS) 方法,针对线性高斯逆问题推导出后验分数的闭式解。该方法在一般高斯插值下,将后验采样转化为特定算子依赖的平移点下的各向异性噪声去噪问题。EPS 可从头训练或从预训练去噪器微调,推理时使用与基础模型相同的采样器,无需似然梯度或投影。在 FFHQ 和 ImageNet 上的五个线性逆问题中,EPS 在保真度、感知和分布指标上优于无训练和基于训练的方法,且去噪器评估次数比基于梯度的后验采样器少约一个数量级。论文EPS线性逆问题后验分数估计扩散模型FFHQ推荐理由:这篇论文提出了 EPS 方法,能更高效准确地求解线性逆问题,在多个基准上表现优异,且计算开销低。原文
12:27arXiv cs.LG@Tongyan Fang, Siyuan Huang, Naiyu Fang, Ganlong Zhao, Zhongjin Luo, Jianbo Liu, Xiaogang Wang, Ying Dong, Hongsheng Li针对VLA策略在线RL微调中每个回合仅产生二元结果(成功/失败)的问题,现有方法将稀疏结果简化为单一标量优势,混淆了可行性与效率两类目标。本文提出分层优势加权行为克隆(HABC),训练两个独立critic头分别优化这两类目标,并通过状态自适应门(gt)合并其输出。在三个接触丰富的双手机器人任务上,HABC将监督微调(SFT)基线36%、44%、12%的成功率分别提升至92%、88%、38%。论文HABCVLA机器人学习在线强化学习推荐理由:HABC方法解决了VLA在线RL微调中稀疏结果的问题,在双手机器人任务上成功率从12-44%提升到38-92%。原文
12:26arXiv cs.LG@Alper Yıldırım论文复现了Oppenheim和Lim(1981)的经典实验,在隐藏层中测试相位与幅度对图像识别的影响。在PRISM2D、GFNet和ViT-B/16中,预测完全跟随相位或符号捐赠者,删除幅度信息后准确率几乎不变。ResNet-50在ReLU后看似不遵循此模式,但ReLU前的干预显示晚期块中存在强相位编码,且DC-only控制表明读取器依赖通道式空间平均。这些架构共享相位/符号身份编码,但因整流和读取几何暴露在不同基底上,为CNN与注意力模型间的纹理-形状差距提供了机理解释。论文PRISM2DGFNetViT-B/16ResNet-50相位编码图像分类神经网络推荐理由:这篇论文用Oppenheim-Lim实验方法测试了多个模型(ViT、CNN)的内部表示,发现相位才是关键,还解释了为什么CNN和ViT对纹理和形状的偏好不同。原文
12:24arXiv cs.LG@Xiaolin Li, Ning Wang, Ninghui Li, Wenhai Sun该论文挑战了差分隐私(DP)固有增强联邦学习(FL)鲁棒性的假设。通过分析两种基线攻击策略,发现DP会掩盖恶意更新的统计特征,使现有防御失效。作者提出RING攻击,显式利用DP来隐藏恶意贡献,同时最大化攻击影响。在四个图像和文本数据集上的非独立同分布场景中,RING在中等隐私预算下对六种先进防御的平均攻击成功率达到90.3%,相比基线策略提升高达26.08倍。评估表明缓解该威胁会带来显著的效用权衡,暴露了差分隐私FL部署中的根本安全漏洞。论文Federated LearningDifferential PrivacyBackdoor AttackRINGAI安全推荐理由:这篇论文颠覆了'差分隐私天然防后门'的认知,提出了RING攻击,平均成功率90.3%,建议做联邦学习安全的都看看。原文
12:23arXiv cs.LG@Mufei Li, Shikun Liu, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan LiKVEraser是一种面向大语言模型KV缓存的编辑方法,旨在高效擦除已处理上下文中的指定片段。该论文提出,直接擦除会导致全局影响,需重新计算后续所有token,成本高昂。KVEraser通过两阶段训练(通用跨度-邻居预训练和任务微调),仅替换被擦除区间的KV状态,保留其余缓存。在1K至32K上下文长度的域内任务中,KVEraser的擦除后性能接近完全重计算,延迟仅增加24%,而完全重计算延迟增加17.6倍。在未见过的长文档问答任务中,KVEraser在有害事实干扰下比近似基线表现更好,速度比完全重计算快3至4倍。论文KVEraserKV缓存上下文擦除推理效率长上下文推荐理由:这篇论文提出KVEraser,能快速从大模型KV缓存中擦除指定内容,不用全部重算,1K-32K长度下延迟只增24%,效果接近重算,适合长上下文场景。原文
12:20arXiv cs.LG@Violet Xiang, Amrith Setlur, Chase Blagden, Nick Haber, Aviral KumarExpRL提出一种自动化方法,通过基于强化学习的中间训练来提升LLM推理能力。该方法不直接模仿参考解决方案,而是将其作为奖励支架,利用LLM裁判对比策略生成的推理轨迹与参考解,给出稠密奖励。在具有挑战性的数学推理任务上,ExpRL相比SFT、稀疏奖励GRPO和自蒸馏方法,能提供更强的RL初始化和更好的最终性能。此外,混合领域实验表明ExpRL可扩展至数学以外的场景。论文ExpRLLLM强化学习推理模型数学推理推荐理由:这篇论文用参考答案做奖励支架,让模型自己探索推理路径,数学推理效果超过了SFT和GRPO,想提升推理能力的可以看看。原文
12:19arXiv cs.LG@Gary P. T. Choi, Khanh Dao Duc, Shira Faigenbaum-Golovin, Karen Habermann, Emmanuel Hartman, Christoph von Tycowicz, Chi Zhang, Wenjun Zhao, Felix Zhou这篇综述整理了形状空间分析的快速发展领域,提供了基于微分几何、统计学和机器学习的数学与计算框架。它围绕形状表示、鲁棒测地度量构建、形状空间统计分析和几何感知学习方法组织文献。应用涵盖亚细胞形态学和灵长类牙齿演化等多个生物组织尺度。文章最后指出了理论计算挑战以及由大规模几何数据集驱动的新机遇。论文Shape Space Analysis微分几何几何数据形状分析机器学习推荐理由:如果你处理非线性的几何数据(比如生物形态或3D模型),这篇综述总结了形状空间分析的核心方法,帮你理解如何比较和统计分析几何对象。原文
12:18arXiv cs.LG@Buqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu ZhangTokenPilot提出了一种双粒度上下文管理框架,通过Ingestion-Aware Compaction稳定提示前缀并消除环境噪声,以及Lifecycle-Aware Eviction监控上下文段残余效用。在PinchBench和Claw-Eval基准测试中,TokenPilot在孤立模式下分别降低61%和56%的成本,连续模式下降低61%和87%,同时保持与先前系统相当的性能。该框架已集成到LightMem2中,可访问https://github.com/zjunlp/LightMem2。论文TokenPilotLightMem2缓存管理上下文优化LLM智能体推荐理由:想降低LLM智能体长会话的推理成本?看看TokenPilot,它通过智能管理上下文缓存,在三个基准上省了61%-87%的费用,性能还不掉队。原文
12:18arXiv cs.LG@Yannick Limmer论文提出过滤共形椭球(Filtered Conformal Ellipsoids)用于多变量时间序列的联合预测集控制。该方法通过冻结状态空间滤波器生成一步预测均值和协方差,并对马氏距离得分进行分割共形校准。在METRLA-20和PEMSBAY-50图原生交通基准上,学习到的滤波器比静态协方差和非滤波器基线获得更尖锐的目标椭球。分析表明,在稳定贝叶斯高斯投影滤波器下,小超额高斯负对数似然可保证学习发射定律的收敛性。论文GCN-GRUMETRLA-20PEMSBAY-50共形预测图神经网络推荐理由:这篇给时间序列预测搞了新套路,用过滤共形椭球比静态协方差更准,在交通数据集上效果更锐利。原文
12:17arXiv cs.LG@Vivek S Borkar本文利用乘法遍历理论分析深度神经网络中的梯度爆炸与消失现象,特别解释残差连接的作用。通过Furstenberg和Kifer的Lyapunov指数刻画,精确阐述了残差连接对Lyapunov谱的影响。研究为理解残差连接如何缓解梯度问题提供了数学基础。论文梯度爆炸残差连接Lyapunov指数深度神经网络乘法遍历理论推荐理由:这篇论文用数学解释了残差连接为什么能解决梯度问题,适合想做深度学习理论研究的同学。原文
12:15arXiv cs.LG@Riccardo Cadei, Frank Otchere, Nyasha Tirivayi, Gustavo Angeles Tagliaferro, Falco J. Bargagli-Stoffi, Francesco Locatello该论文提出NEXIS(Neural Exposure Interaction Search),一种迭代方法,用于在可控实验中从多模态预处理表示中识别异质处理效应的因果结构。NEXIS将HTE识别重新定义为马尔可夫毯发现问题,并提供了可证明的一致性选择保证。作者将NEXIS应用于非洲两项扶贫项目,结合卫星影像捕捉未测量的环境效应修饰因子,得到了新的、可解释的政策优化指南。实验验证了NEXIS在合成数据和实际数据上的有效性。论文NEXIS异质处理效应因果推断卫星影像政策优化推荐理由:这篇论文用NEXIS方法在非洲扶贫数据上找到了新的环境因子,能指导政策迭代,因果推断爱好者可以看看。原文