AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:正则化×
6月30日
13:45
13:45arXiv cs.AI@Haoran Jin, Xiting Wang, Shijie Ren, Hong Xie, Defu Lian
稀疏自编码器(SAE)常用于解释大语言模型,但扩展到大规模字典时会出现特征分裂(将连贯概念拆分为非原子潜在变量)和特征吸收(在通用特征中创建任意例外)问题。这些问题源于不同样本间的潜在变量分配不一致。C^2R方法通过惩罚批量中方向相似潜在变量的共激活,显式鼓励每个语义特征由统一潜在变量表示。评估显示C^2R有效缓解分裂和吸收,同时保持重建保真度,代码已在GitHub开源。
论文C^2R稀疏自编码器特征分裂可解释性正则化

推荐理由:这篇论文发现了SAE解释模型时的两个大坑——特征分裂和吸收,然后用C^2R正则化给治好了,代码开源,直接上手试试。
原文
6月29日
10:10
10:10arXiv cs.AI@Julius Girardin, Emanuele Troiani, Yizhou Xu, Vittorio Erba, Florent Krzakala, Lenka Zdeborová
该论文在二次两层神经网络中,通过ℓ2正则化经验风险最小化,分析了泛化误差随参数数量、样本量和宽度变化的精确表达式。研究发现泛化误差遵循依赖于目标谱结构的数据驱动幂律,并揭示了不同缩放区域间的相图转变,包括插值起始点的特征。实验基于有限样本和结构化数据,为理解特征学习模型的缩放行为提供了理论框架。
论文Quadratic Neural Networks泛化缩放定律相图正则化幂律

推荐理由:这篇论文给出了二次网络里参数和样本数怎么影响泛化误差的数学公式,比单纯看数据或算力更深入。
原文
6月26日
10:40
10:40arXiv cs.LG@Nathanaël Jacquier, Maria Vakalopoulou, Mahdi S. Hosseini
这篇论文提出两种可与Top-k稀疏自编码器架构兼容的稀疏正则化方法:对未选中单元的L1惩罚和尺度不变的L1/L2比率惩罚。在2个数据集、3个视觉基础模型和多种k值下,两种正则化均一致改善单语义性而不降低重构质量。L1/L2惩罚进一步将信息集中到更少潜在单元中,使重构对推理时k的选择更具鲁棒性,并提升小预算线性探测性能。核心发现是硬性架构稀疏性与软性稀疏正则化互补而非互斥。
论文Top-k SAE稀疏自编码器可解释性视觉基础模型正则化

推荐理由:这篇论文给Top-k稀疏自编码器加了两种正则化方法,能让模型更可解释而且重构质量不降,值得做可解释性的人看看。
原文
6月18日
10:39
10:39arXiv cs.LG@Till Richter, Niki Kilbertus
OrthoReg提出了一种正交正则化方法,直接惩罚符号组件与神经组件的重叠,防止符号结构被神经残差吸收。相比标准L2正则化,该方法在符号组件通过稀疏发现学习时仍能保持互补分解。在部分库不匹配的基准动力系统上,OrthoReg改善了符号恢复准确性和分布外泛化性能。
论文OrthoReg动力系统混合建模正则化符号回归

推荐理由:这篇论文提出OrthoReg,解决了混合建模中神经网络容易学走符号部分的问题,实验效果明显,写代码的朋友可以看看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月10日
09:32
09:32arXiv cs.LG@Yiyuan She, Zhaojun Hu, Yifan Sun
精选
本文提出了一种名为“范围正则化”的新方法,用于联邦学习场景,旨在提升统计精度并促进跨客户端的规律性,从而有利于量化、编码和资源效率。该方法通过识别不同客户端间共享权重的特征,并将个性化特征的权重自适应地聚类到极值(称为极值聚类),解决了传统正则化器因半范数特性和不可分解性带来的理论分析难题。研究者开发了新的非渐近分析技术,用于评估统计精度和模式恢复的可靠性,并提出了利用局部强凸性的快速优化算法以减少迭代复杂度。实验验证了该方法在联邦学习中的有效性和效率,为分布式机器学习提供了新的理论工具。
论文联邦学习正则化极值聚类理论分析优化算法

推荐理由:联邦学习团队终于有了一个兼顾理论严谨和实际效率的正则化方案——极值聚类能显著提升模型压缩和通信效率,做分布式系统或资源受限场景的开发者可以直接参考实验设置。
原文
5月27日
10:50
10:50arXiv cs.LG@Ethan Harvey, Dennis Johan Loevlie, Michael C. Hughes
精选
在3D医学图像分析中,通常只有整个体积的单一标签,而非每张2D切片都有标签。弱监督学习下,注意力机制的多实例学习(MIL)可为每张切片生成注意力分数,但近期研究发现,一个忽略图像内容的简单中心聚焦基线方法,在脑部扫描切片分类上竟优于基于注意力和Transformer的MIL方法。该研究进一步验证,该基线在胸部和腹部CT扫描的切片分类上也表现更优。为此,作者提出Normal Guidance正则化技术,鼓励学习到的注意力分布遵循钟形曲线。在三个医学影像数据集(总计超过400万张2D切片)上,Normal Guidance使基于注意力和Transformer的MIL方法在切片级定位上显著优于现有技术,同时在全扫描分类上保持竞争力。
论文弱监督学习注意力机制医学影像正则化MIL

推荐理由:做医学影像分析的团队终于有了一个简单有效的正则化技巧——Normal Guidance能显著提升弱监督下的切片定位精度,比现有MIL方法更准,建议做3D医学图像分类的开发者试试。
原文
5月22日
10:59
10:59arXiv cs.AI@Vishal Rajput
精选
本文提出“匹配原则”,将鲁棒性、域适应、光度不变性、组合泛化、时间鲁棒性、对齐安全等看似独立的问题统一为同一个统计问题:估计部署干扰的协方差,然后沿着覆盖该协方差的矩阵正则化编码器雅可比矩阵。在线性高斯模型中,作者证明了闭式最优性(定理A),包括匹配范围内的立方根水填充;证明了二次雅可比惩罚需要范围覆盖(定理G);并提供了七个条件一致性引理。作者引入轨迹偏差指数(TDI),一种无标签的嵌入敏感性探针。在从经典ML到Qwen2.5-7B的13个预注册实验中,12个通过了预测的匹配-各向同性-错误W顺序测试。在7B规模上,匹配风格PMH提高了选择性诚实性,并保持了风格TDI,而标准DPO则使其退化。
论文表示学习鲁棒性域适应正则化匹配原则

推荐理由:这篇论文把鲁棒性、域适应等一堆看似无关的问题统一成了一个统计框架,做表示学习或模型泛化的研究者可以直接用匹配原则指导正则化器设计,省去试错成本。
原文
5月21日
09:46
09:46arXiv cs.AI@Yixu Wang, Yang Yao, Xin Wang, Yifeng Gao, Yan Teng, Xingjun Ma, Yingchun Wang
精选
论文指出当前大模型的安全对齐存在脆弱性:同一恶意意图换种措辞就可能绕过防护。作者提出“上下文不变性对齐”概念,要求模型行为基于底层意图而非表面形式。为此设计了锚定不变性正则化(AIR),将可验证提示作为锚点,仅对开放变体进行正则化,避免降低可靠变体的性能。在安全、道德推理和数学任务上,AIR将分布内准确率提升12.71%,分布外一致性提升33.49%,使安全约束对对抗性措辞更鲁棒。该方法可作为插件与GRPO等偏好优化方法结合使用。
论文大模型安全对齐上下文不变性正则化GRPO

推荐理由:大模型安全对齐的脆弱性一直是部署痛点,AIR用巧妙的锚定策略解决了“一改措辞就破防”的问题,做安全对齐的团队可以直接集成到现有训练流程中。
原文
5月19日
11:03
11:03arXiv cs.LG@George Whittle, Pranav Vaidhyanathan, Juliusz Ziomek, Natalia Ares, Maike A. Osborne
精选
本文研究了宽神经网络在特征学习机制下的正则化问题,指出梯度流训练隐含的正则化偏好在核机制和特征学习机制中存在根本差异。在核机制中,梯度流自然选择岭回归解,而特征学习机制中岭回归会扭曲网络的归纳偏置,尤其损害预训练模型。作者通过公理化方法定义了规范正则化器,并利用黎曼几何推导出特征学习机制下的测地岭正则化。作为实用替代,提出了弧岭正则化,揭示了早停与规范正则化之间的深层联系。实验在图像处理和NLP迁移学习任务上验证了理论。
论文正则化特征学习黎曼几何核机制深度学习理论

推荐理由:这篇论文解决了特征学习网络缺乏规范正则化理论的痛点,做深度学习理论和正则化研究的学者值得细读——它用黎曼几何统一了核机制和特征学习机制,并给出了可落地的弧岭正则化方案。
原文
5月15日
10:01
10:01arXiv cs.AI@Suorong Yang, Hanqi Zhu, Hai Gan, Fangjian Su, Guang Li, Furao Shen, Soujanya Poria
精选
现有数据选择方法主要关注“选什么”,但固定选择比例,忽略了动态调整数据量的潜力。本文从优化角度揭示,选择比例会隐式调节正则化效果:低比例增强正则化,高比例保持数据覆盖和优化保真度。为此,提出PODS框架,作为轻量级即插即用模块,在训练中动态调度选择数据量,交替低比例正则化阶段和高比例恢复阶段,平衡效率与泛化。实验表明,PODS可将ImageNet-1k训练成本降低50%且提升准确率,将LLM指令微调加速2倍以上且不损失性能。
论文数据选择训练效率正则化即插即用PODS

推荐理由:PODS解决了数据选择中“选多少”被忽视的问题,做模型训练优化的团队可以直接集成到现有方法中,无需改动评分指标,值得一试。
原文
5月12日
19:11
19:11arXiv cs.LG@Tiberiu Musat
精选80°
该论文证明在固定精度下,循环神经网络的权重范数最小值与输出二进制字符串的柯尔莫哥洛夫复杂度成对数比例。这一结论将权重衰减的泛化能力与所罗门诺夫通用先验联系起来,揭示了正则化的理论基础。研究表明,固定精度下任何权重范数都会坍缩为非零参数计数,因此该结论适用于任意范数正则化器。证明通过将图灵机程序编码为神经权重和枚举非零参数两个方向实现,其中对数因子由置换编码实现。该结果强调固定精度假设的关键性,因为无限精度下神经网络可能编码非可计算函数。
论文深度学习理论正则化柯尔莫哥洛夫复杂度泛化性

推荐理由:为权重衰减的优越性提供了理论解释,将神经网络正则化与计算复杂性理论直接关联,对理解深度学习泛化机理有重要参考价值。
原文
精选全部日报登录