全部 AI 动态 · AI 热点

6月30日

13:45

arXiv cs.AI@Haoran Jin, Xiting Wang, Shijie Ren, Hong Xie, Defu Lian

稀疏自编码器（SAE）常用于解释大语言模型，但扩展到大规模字典时会出现特征分裂（将连贯概念拆分为非原子潜在变量）和特征吸收（在通用特征中创建任意例外）问题。这些问题源于不同样本间的潜在变量分配不一致。C^2R方法通过惩罚批量中方向相似潜在变量的共激活，显式鼓励每个语义特征由统一潜在变量表示。评估显示C^2R有效缓解分裂和吸收，同时保持重建保真度，代码已在GitHub开源。

论文 C^2R 稀疏自编码器特征分裂可解释性正则化

推荐理由：这篇论文发现了SAE解释模型时的两个大坑——特征分裂和吸收，然后用C^2R正则化给治好了，代码开源，直接上手试试。

原文

6月29日

10:10

arXiv cs.AI@Julius Girardin, Emanuele Troiani, Yizhou Xu, Vittorio Erba, Florent Krzakala, Lenka Zdeborová

该论文在二次两层神经网络中，通过ℓ2正则化经验风险最小化，分析了泛化误差随参数数量、样本量和宽度变化的精确表达式。研究发现泛化误差遵循依赖于目标谱结构的数据驱动幂律，并揭示了不同缩放区域间的相图转变，包括插值起始点的特征。实验基于有限样本和结构化数据，为理解特征学习模型的缩放行为提供了理论框架。

论文 Quadratic Neural Networks 泛化缩放定律相图正则化幂律

推荐理由：这篇论文给出了二次网络里参数和样本数怎么影响泛化误差的数学公式，比单纯看数据或算力更深入。

原文

6月26日

10:40

arXiv cs.LG@Nathanaël Jacquier, Maria Vakalopoulou, Mahdi S. Hosseini

这篇论文提出两种可与Top-k稀疏自编码器架构兼容的稀疏正则化方法：对未选中单元的L1惩罚和尺度不变的L1/L2比率惩罚。在2个数据集、3个视觉基础模型和多种k值下，两种正则化均一致改善单语义性而不降低重构质量。L1/L2惩罚进一步将信息集中到更少潜在单元中，使重构对推理时k的选择更具鲁棒性，并提升小预算线性探测性能。核心发现是硬性架构稀疏性与软性稀疏正则化互补而非互斥。

论文 Top-k SAE 稀疏自编码器可解释性视觉基础模型正则化

推荐理由：这篇论文给Top-k稀疏自编码器加了两种正则化方法，能让模型更可解释而且重构质量不降，值得做可解释性的人看看。

原文

6月18日

10:39

arXiv cs.LG@Till Richter, Niki Kilbertus

OrthoReg提出了一种正交正则化方法，直接惩罚符号组件与神经组件的重叠，防止符号结构被神经残差吸收。相比标准L2正则化，该方法在符号组件通过稀疏发现学习时仍能保持互补分解。在部分库不匹配的基准动力系统上，OrthoReg改善了符号恢复准确性和分布外泛化性能。

论文 OrthoReg 动力系统混合建模正则化符号回归

推荐理由：这篇论文提出OrthoReg，解决了混合建模中神经网络容易学走符号部分的问题，实验效果明显，写代码的朋友可以看看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日