全部 AI 动态 · AI 热点

6月29日

10:14

10:14

arXiv cs.LG@Phong Dang, Evander Espinoza, Xiaoliang Wan, Michela Negro, Jerry P. Draayer, Feng Pan, Tomas Dytrych, Daniel Langr, David Kekejian

这篇论文研究SU(3)和SU(4)对称性是否支配整个核素图的核结合能。作者构建了三种神经网络质量模型：FINN（点预测）、GINN（不确定性量化）和WINN（以Casimir算子为基的质量公式）。训练数据为AME2016，验证于AME2020新增核。SU(4)算子单独使均方根误差（RMSE）相较液滴基线在训练和测试集上降低近一半，在外推上降低约五分之一。WINN达到最低验证RMSE为0.430 MeV，与顶级质量模型竞争力相当。WINN还揭示中子滴线附近SU(4)二次Casimir增强（对称性恢复）和超重区四次算子意外增益。

论文 SU(3)SU(4)WINN 神经网络核质量

推荐理由：这篇论文用可解释神经网络从对称性角度预测原子核质量，WINN模型精度0.430 MeV，还揭示了中子滴线和超重区的新现象，值得搞核物理或AI的人看看。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:26

12:26

arXiv cs.LG@Alper Yıldırım

论文复现了Oppenheim和Lim（1981）的经典实验，在隐藏层中测试相位与幅度对图像识别的影响。在PRISM2D、GFNet和ViT-B/16中，预测完全跟随相位或符号捐赠者，删除幅度信息后准确率几乎不变。ResNet-50在ReLU后看似不遵循此模式，但ReLU前的干预显示晚期块中存在强相位编码，且DC-only控制表明读取器依赖通道式空间平均。这些架构共享相位/符号身份编码，但因整流和读取几何暴露在不同基底上，为CNN与注意力模型间的纹理-形状差距提供了机理解释。

论文 PRISM2D GFNet ViT-B/16 ResNet-50 相位编码图像分类神经网络

推荐理由：这篇论文用Oppenheim-Lim实验方法测试了多个模型（ViT、CNN）的内部表示，发现相位才是关键，还解释了为什么CNN和ViT对纹理和形状的偏好不同。

6月15日

11:12

11:12

arXiv cs.AI@Michael Goodale, Salvador Mascarenhas

Fodor和Pylyshyn提出的系统性挑战认为，人类语言理解具有双向条件依赖（如理解"John saw Mary"就能理解"Mary saw John"），而神经网络无法解释。Lake和Baroni的元学习组合性协议声称已匹配人类系统性，但本文实验发现，该模型在分布外规则上表现困难，甚至在分布内任务中也出现非系统性行为。作者结论是Fodor和Pylyshyn的挑战仍未得到满足。

论文 Fodor Pylyshyn Lake Baroni 元学习系统性神经网络认知科学

推荐理由：论文证明神经网络还解不开这个经典难题

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:37

12:37

arXiv cs.AI@Gleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov

精选

该研究系统分析了稀疏自编码器（SAE）在不同训练种子下特征的稳定性。研究发现，稳定特征承载了大部分重构和预测相关的信号，而不稳定特征个体不可复现但集中在可复现的低秩子空间中，表明种子依赖性更多反映激活空间内的基模糊性而非纯噪声。通过跨种子聚合独特特征，可以在保持解释方差的同时构建更稳定的SAE。该工作为理解SAE的可靠性提供了新视角。

论文稀疏自编码器特征稳定性可解释性子空间神经网络

推荐理由：做神经网络可解释性研究的团队会关心——SAE特征不稳定不是噪声，而是低维结构的基选择问题，看完能帮你更合理设计实验和解读结果。

6月10日

09:29

09:29

arXiv cs.LG@Jakob Galley, Vahid Shahverdi, Axel Flinth

精选

该研究探讨了训练数据的对称性是否会在神经网络的梯度流训练中产生守恒量。作者证明，在损失函数为解析且非多项式的一般情况下，数据对称性通常不会引入额外的运动积分。但对于均方误差（MSE）损失，数据增强有时会产生额外的守恒量。研究通过引入“可张量化网络”框架来描述这一现象，这类架构包括线性网络、多项式网络以及Lightning Attention。

论文神经网络对称性守恒律数据增强梯度流

推荐理由：这项研究澄清了数据对称性与神经网络训练动力学之间的深层关系，对理解数据增强的理论基础有重要意义。做理论研究的机器学习学者值得关注，它可能影响你对数据增强策略的设计思路。

5月28日

11:32

11:32

arXiv cs.AI@Bibek Poudel, Sai Swaminathan, Weizi Li

AlphaTransit 是一个基于搜索的公交网络规划框架，结合了蒙特卡洛树搜索（MCTS）与神经网络策略-价值网络，用于解决公交线路设计中延迟反馈的挑战。它能在构建完整网络前预测每条线路扩展的长期效果，避免局部优化导致的换乘瓶颈或重叠问题。在Bloomington基准测试中，AlphaTransit在混合和全公交需求场景下分别达到54.6%和82.1%的服务率，比纯强化学习提升9.9%和11.4%，比无学习引导的MCTS提升2.5%和11.2%。代码和数据已开源。

论文公交网络设计 MCTS/搜索神经网络交通规划开源/仓库

推荐理由：城市交通规划团队终于有了一个能提前预见线路设计后果的AI工具——AlphaTransit用搜索+学习解决了公交网络设计的延迟反馈难题，做交通规划或智慧城市的研究者可以直接用开源代码跑自己的数据。

5月25日

10:02

10:02

arXiv cs.LG@Vincent C. Brockers, Roman D. Ventzke, Valentin Neuhaus, Belén Hidalgo-Ogalde, Viola Priesemann

本文研究了神经网络中的“潜意识学习”现象，即学生模型通过教师模型在任务无关的输入-输出对上进行蒸馏，从而获得任务相关知识或偏差。先前研究认为这需要师生初始化高度匹配，但本文证明只需兼容的输出头即可实现。在MNIST数据集上，通过将输出分为辅助头（处理噪声）和分类头，即使在隐藏层随机初始化、增减层或改变架构（如MLP到CNN）的情况下，潜意识学习仍会发生。兼容的辅助头能传递可恢复的教师信号，使学生表征更接近教师。当分类头也兼容时，仅用噪声训练的学生模型可接近甚至匹配教师的任务性能。本文还建立了理论解释机制并推导了失效的上界，将潜意识学习从意外现象转化为可预测的机制。

论文知识蒸馏神经网络潜意识学习表征对齐 MNIST

推荐理由：这篇论文揭示了神经网络蒸馏中一个反直觉但关键的机制——潜意识学习并不依赖初始化匹配，而是由输出头兼容性驱动。做模型压缩、知识蒸馏或研究表征对齐的研究者值得细读，它可能改变你对蒸馏数据选择的认知。

5月22日

11:19

11:19

arXiv cs.LG@Carlos Heredia, Daniel Roncel

精选

研究人员提出了一种名为ICDN（可积分上下文依赖需求网络）的神经网络模型，用于多产品零售需求预测。该模型将对数需求作为对数价格的平滑、上下文条件函数进行学习，从而能够精确推导出弹性。在Dominick's啤酒数据集上，ICDN相比传统的对数-对数基准模型，在样本外泛化上表现更优，并生成了更稳定、经济上更合理的弹性估计，尤其对于弱识别的交叉价格效应。

论文需求预测定价优化神经网络弹性估计零售

推荐理由：零售定价和需求预测的从业者终于有了一个能稳定估计交叉价格弹性的工具——ICDN直接解决了传统模型在弱识别场景下的不稳定问题，做品类管理和定价优化的团队值得关注。

5月21日

12:23

12:23

arXiv cs.LG@Alim Igilik

精选

传统地震预测模型假设泊松分布且全局离散度一致，但中亚地震数据（2010-2024）强烈拒绝该假设（p<10^{-179}）。本研究提出 EarthquakeNet 架构，通过神经网络（空间嵌入+MLP）内生估计每个网格的过离散参数 alpha，无需显式空间协方差设定。相比传统负二项回归假设全局 alpha，该模型能识别地震聚集的空间异质性，并通过预测分布分位数构建概率风险警报。2018-2023 年滚动评估显示，平均引脚偏差（MPD）比负二项 GLM 基线降低 8.6%，在极端事件（Y>=5）的连续排名概率分数（CRPS）降低 12.5%。

论文地震预测神经网络负二项回归尾部风险 EarthquakeNet

推荐理由：地震预测领域终于有了能捕捉空间异质性的神经网络方法，做灾害风险评估的团队可以直接用分位数构建警报，比传统全局假设模型更准。

5月15日

11:09

11:09

arXiv cs.LG@ML Nissen Gonzalez, Melwina Albuquerque, Laurence Wroe, Jacob Meyer Cohen, Logan Riggs Smith, Thomas Dooms

精选

这篇论文提出了一种新的权重度量方法——张量相似性（Tensor Similarity），用于判断两个神经网络是否实现相同的计算。现有方法要么依赖经验行为（对分布外机制不敏感），要么依赖基依赖参数（忽略权重空间对称性）。新方法通过递归算法捕捉跨层机制，对权重空间对称性保持不变，从而更准确地衡量全局功能等价性。实验表明，张量相似性在追踪训练动态（如grokking和后门插入）方面优于现有指标。这项工作将相似性测量和忠实性验证从经验近似问题转化为可解的代数问题。

论文可解释性神经网络张量相似性权重空间对称性功能等价性

推荐理由：做可解释性研究的团队终于有了一个不依赖经验近似、能真正衡量网络等价性的工具，值得关注。

5月11日

11:44

11:44arXiv cs.LG（学术论文）

研究者提出了一种名为Susceptibilities的技术，用于深度强化学习中神经网络的可解释性分析。该方法通过研究损失扰动对观测值后验期望的影响，扩展到RL的遗憾（regret）设置中。在简单的网格世界模型中，Susceptibilities能够揭示参数空间内模型发展的内部特征，而这些特征通过单纯学习策略发展无法检测。验证实验使用激活引导（activation-steering）证实了结果，并讨论了该方法扩展到RLHF后训练的可能性。这一工作为理解RL智能体的行为和学习过程提供了新的分析工具。

论文强化学习可解释性神经网络 RLHF

推荐理由：对强化学习研究者有参考价值，提供了超越传统策略分析的模型内部状态洞察方法，尤其可用于分析RLHF训练中的阶段变化。