全部 AI 动态 · AI 热点

6月29日

10:14

arXiv cs.LG@Phong Dang, Evander Espinoza, Xiaoliang Wan, Michela Negro, Jerry P. Draayer, Feng Pan, Tomas Dytrych, Daniel Langr, David Kekejian

这篇论文研究SU(3)和SU(4)对称性是否支配整个核素图的核结合能。作者构建了三种神经网络质量模型：FINN（点预测）、GINN（不确定性量化）和WINN（以Casimir算子为基的质量公式）。训练数据为AME2016，验证于AME2020新增核。SU(4)算子单独使均方根误差（RMSE）相较液滴基线在训练和测试集上降低近一半，在外推上降低约五分之一。WINN达到最低验证RMSE为0.430 MeV，与顶级质量模型竞争力相当。WINN还揭示中子滴线附近SU(4)二次Casimir增强（对称性恢复）和超重区四次算子意外增益。

论文 SU(3)SU(4)WINN 神经网络核质量

推荐理由：这篇论文用可解释神经网络从对称性角度预测原子核质量，WINN模型精度0.430 MeV，还揭示了中子滴线和超重区的新现象，值得搞核物理或AI的人看看。

原文

6月18日

02:53

Decoder@Jonathan Kemper

微软研究员在《帝国时代2》地图编辑器中，用山羊、桥梁和冰坡搭建了一个可运行的神经网络。他对315篇AI论文的分析显示，超过一半在实验前就预设语言模型拥有人类特质。该实验通过更换聊天界面为游荡山羊，证明数学原理不变但交互感受改变，旨在揭露AI研究中过度拟人化的倾向。

行业微软 Age of Empires II 神经网络 AI研究方法拟人化

推荐理由：微软研究员真用《帝国时代2》山羊搭了个神经网络，顺带扒了315篇AI论文的皮，脑洞和讽刺都拉满。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:26

arXiv cs.LG@Alper Yıldırım

论文复现了Oppenheim和Lim（1981）的经典实验，在隐藏层中测试相位与幅度对图像识别的影响。在PRISM2D、GFNet和ViT-B/16中，预测完全跟随相位或符号捐赠者，删除幅度信息后准确率几乎不变。ResNet-50在ReLU后看似不遵循此模式，但ReLU前的干预显示晚期块中存在强相位编码，且DC-only控制表明读取器依赖通道式空间平均。这些架构共享相位/符号身份编码，但因整流和读取几何暴露在不同基底上，为CNN与注意力模型间的纹理-形状差距提供了机理解释。

论文 PRISM2D GFNet ViT-B/16 ResNet-50 相位编码图像分类神经网络

推荐理由：这篇论文用Oppenheim-Lim实验方法测试了多个模型（ViT、CNN）的内部表示，发现相位才是关键，还解释了为什么CNN和ViT对纹理和形状的偏好不同。

原文

6月15日

11:12

arXiv cs.AI@Michael Goodale, Salvador Mascarenhas

Fodor和Pylyshyn提出的系统性挑战认为，人类语言理解具有双向条件依赖（如理解"John saw Mary"就能理解"Mary saw John"），而神经网络无法解释。Lake和Baroni的元学习组合性协议声称已匹配人类系统性，但本文实验发现，该模型在分布外规则上表现困难，甚至在分布内任务中也出现非系统性行为。作者结论是Fodor和Pylyshyn的挑战仍未得到满足。

论文 Fodor Pylyshyn Lake Baroni 元学习系统性神经网络认知科学

推荐理由：论文证明神经网络还解不开这个经典难题

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

06:36

Gary Marcus@GaryMarcus

Gary Marcus 引用一项新研究指出，AI 中所谓的“神经网络”与真实生物神经元几乎无关。研究显示，单个皮层神经元就能完成猫狗分类、语音识别等任务，而这些在传统 AI 中需要整个网络才能实现。这揭示了当前 AI 模型对生物神经系统的过度简化，可能限制了其能力上限。Marcus 认为，AI 领域需要重新审视其基础假设，从真实神经科学中汲取更多灵感。

论文神经网络神经科学 AI 基础 Gary Marcus 认知科学

推荐理由：这项研究戳破了 AI 领域的一个常见误解——神经网络并不像大脑。做 AI 研究或对认知科学感兴趣的读者，看完会对模型设计有新的思考。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:37

arXiv cs.AI@Gleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov

精选

该研究系统分析了稀疏自编码器（SAE）在不同训练种子下特征的稳定性。研究发现，稳定特征承载了大部分重构和预测相关的信号，而不稳定特征个体不可复现但集中在可复现的低秩子空间中，表明种子依赖性更多反映激活空间内的基模糊性而非纯噪声。通过跨种子聚合独特特征，可以在保持解释方差的同时构建更稳定的SAE。该工作为理解SAE的可靠性提供了新视角。

论文稀疏自编码器特征稳定性可解释性子空间神经网络

推荐理由：做神经网络可解释性研究的团队会关心——SAE特征不稳定不是噪声，而是低维结构的基选择问题，看完能帮你更合理设计实验和解读结果。

原文

6月10日

09:29

arXiv cs.LG@Jakob Galley, Vahid Shahverdi, Axel Flinth

精选

该研究探讨了训练数据的对称性是否会在神经网络的梯度流训练中产生守恒量。作者证明，在损失函数为解析且非多项式的一般情况下，数据对称性通常不会引入额外的运动积分。但对于均方误差（MSE）损失，数据增强有时会产生额外的守恒量。研究通过引入“可张量化网络”框架来描述这一现象，这类架构包括线性网络、多项式网络以及Lightning Attention。

论文神经网络对称性守恒律数据增强梯度流

推荐理由：这项研究澄清了数据对称性与神经网络训练动力学之间的深层关系，对理解数据增强的理论基础有重要意义。做理论研究的机器学习学者值得关注，它可能影响你对数据增强策略的设计思路。

原文

6月8日

08:39

08:39IT之家（博客/媒体）

精选

麦考瑞大学研究团队开发了一款基于神经网络的 AI 算法，用于识别机场 CT 扫描影像中的鱼翅、海马、海参等常见走私海洋生物样本，整体识别准确率达 92%。该算法利用机场现有的 X 射线 CT 设备，通过训练识别三维影像中的走私物品，可自动标记可疑行李供人工核查。研究模拟了真实走私场景，包括用锡纸、衣物包裹或藏在玩具内，测试结果显示鱼翅识别准确率 95%，海马 96%，海参 86%。虽然误报率为 13%，但该技术有望成为打击海洋野生动物走私的有力工具，不过仍需人工复核，且受限于 CT 设备的高昂成本。

AI产品 AI 算法海洋走私 CT 扫描野生动物保护神经网络

推荐理由：海洋走私每年交易额达数十亿美元，AI 检测能大幅提升查获率，做海关安检或生态保护的团队值得关注这套方案。

原文

6月3日

20:06

Pandaily@contact@pandaily.com (Pandaily)

华中科技大学和上海交通大学的研究团队在玻璃内部直接写入可编程三维光子神经网络，实现了光子计算的新范式。该技术利用飞秒激光在玻璃中刻写光波导和可调谐节点，构建出能在光域内执行神经网络运算的3D结构。相比传统电子芯片，光子神经网络具有低功耗、高带宽和并行处理优势，有望在人工智能推理、边缘计算等领域突破现有硬件瓶颈。这项成果展示了玻璃作为光子计算基板的潜力，为未来集成光子AI芯片提供了新路径。

论文光子计算神经网络 3D集成飞秒激光华中科技大学

推荐理由：光子计算是突破AI算力瓶颈的关键方向，做硬件加速或边缘计算的团队值得关注——玻璃内写神经网络的方法比传统硅基方案更灵活，功耗更低，建议点开了解技术细节。

原文

5月28日

11:32

arXiv cs.AI@Bibek Poudel, Sai Swaminathan, Weizi Li

AlphaTransit 是一个基于搜索的公交网络规划框架，结合了蒙特卡洛树搜索（MCTS）与神经网络策略-价值网络，用于解决公交线路设计中延迟反馈的挑战。它能在构建完整网络前预测每条线路扩展的长期效果，避免局部优化导致的换乘瓶颈或重叠问题。在Bloomington基准测试中，AlphaTransit在混合和全公交需求场景下分别达到54.6%和82.1%的服务率，比纯强化学习提升9.9%和11.4%，比无学习引导的MCTS提升2.5%和11.2%。代码和数据已开源。

论文公交网络设计 MCTS/搜索神经网络交通规划开源/仓库

推荐理由：城市交通规划团队终于有了一个能提前预见线路设计后果的AI工具——AlphaTransit用搜索+学习解决了公交网络设计的延迟反馈难题，做交通规划或智慧城市的研究者可以直接用开源代码跑自己的数据。

原文

5月25日

10:02

arXiv cs.LG@Vincent C. Brockers, Roman D. Ventzke, Valentin Neuhaus, Belén Hidalgo-Ogalde, Viola Priesemann

本文研究了神经网络中的“潜意识学习”现象，即学生模型通过教师模型在任务无关的输入-输出对上进行蒸馏，从而获得任务相关知识或偏差。先前研究认为这需要师生初始化高度匹配，但本文证明只需兼容的输出头即可实现。在MNIST数据集上，通过将输出分为辅助头（处理噪声）和分类头，即使在隐藏层随机初始化、增减层或改变架构（如MLP到CNN）的情况下，潜意识学习仍会发生。兼容的辅助头能传递可恢复的教师信号，使学生表征更接近教师。当分类头也兼容时，仅用噪声训练的学生模型可接近甚至匹配教师的任务性能。本文还建立了理论解释机制并推导了失效的上界，将潜意识学习从意外现象转化为可预测的机制。

论文知识蒸馏神经网络潜意识学习表征对齐 MNIST

推荐理由：这篇论文揭示了神经网络蒸馏中一个反直觉但关键的机制——潜意识学习并不依赖初始化匹配，而是由输出头兼容性驱动。做模型压缩、知识蒸馏或研究表征对齐的研究者值得细读，它可能改变你对蒸馏数据选择的认知。

原文

5月24日

03:28

rohanpaul_ai@rohanpaul_ai

76°

Andrej Karpathy 在 Sequoia Capital 的访谈中提出，未来计算可能从经典计算转向神经计算，神经网络成为主机进程，CPU 退居协处理器。他认为许多现有软件是早期计算时代需要明确每一步的产物，未来设备可能直接接收原始视频、音频或意图，通过扩散模型实时生成独特 UI。这意味着大量中间软件可能消失，界面不再由产品团队预先构建，而是根据当前时刻动态生成。Karpathy 指出，1950-60 年代人们曾困惑计算机会像计算器还是神经网络，最终选择了计算器路径，但现在可能迎来反转。

行业神经网络计算范式软件消失 Andrej Karpathy 未来界面

推荐理由：Karpathy 把软件行业的底层假设翻了个底朝天——未来可能不是更好的 App Store，而是神经网络直接接管界面生成。做产品、搞架构的开发者看完会重新思考自己每天在写什么。

原文

5月22日

11:19

arXiv cs.LG@Carlos Heredia, Daniel Roncel

精选

研究人员提出了一种名为ICDN（可积分上下文依赖需求网络）的神经网络模型，用于多产品零售需求预测。该模型将对数需求作为对数价格的平滑、上下文条件函数进行学习，从而能够精确推导出弹性。在Dominick's啤酒数据集上，ICDN相比传统的对数-对数基准模型，在样本外泛化上表现更优，并生成了更稳定、经济上更合理的弹性估计，尤其对于弱识别的交叉价格效应。

论文需求预测定价优化神经网络弹性估计零售

推荐理由：零售定价和需求预测的从业者终于有了一个能稳定估计交叉价格弹性的工具——ICDN直接解决了传统模型在弱识别场景下的不稳定问题，做品类管理和定价优化的团队值得关注。

原文

5月21日

12:23

arXiv cs.LG@Alim Igilik

精选

传统地震预测模型假设泊松分布且全局离散度一致，但中亚地震数据（2010-2024）强烈拒绝该假设（p<10^{-179}）。本研究提出 EarthquakeNet 架构，通过神经网络（空间嵌入+MLP）内生估计每个网格的过离散参数 alpha，无需显式空间协方差设定。相比传统负二项回归假设全局 alpha，该模型能识别地震聚集的空间异质性，并通过预测分布分位数构建概率风险警报。2018-2023 年滚动评估显示，平均引脚偏差（MPD）比负二项 GLM 基线降低 8.6%，在极端事件（Y>=5）的连续排名概率分数（CRPS）降低 12.5%。

论文地震预测神经网络负二项回归尾部风险 EarthquakeNet

推荐理由：地震预测领域终于有了能捕捉空间异质性的神经网络方法，做灾害风险评估的团队可以直接用分位数构建警报，比传统全局假设模型更准。

原文

5月18日

23:14

AlphaSignal@AlphaSignalAI

精选72°

一篇新论文提出 adVersarial Parameter Decomposition (VPD) 方法，将神经网络权重分解为小型、单一用途的子组件，每个组件处理特定任务（如表情预测或性别识别）。该方法通过对抗性消融训练保留关键行为，并成功分解了跨多头注意力计算——这一难题三年未解。VPD 可扩展到真实四层语言模型，被视为稀疏自编码器的有力竞争者。它允许通过归因图追踪信息流，甚至手动编辑特定行为并预测结果，使模型权重变得可解释。

论文可解释性 VPD 神经网络权重分解注意力机制

推荐理由：VPD 解决了神经网络可解释性长期以来的痛点——权重不可读，做模型调试、安全对齐或研究 AI 内部机制的团队可以直接用这个工具来追踪和编辑模型行为。

原文

5月15日

11:09

arXiv cs.LG@ML Nissen Gonzalez, Melwina Albuquerque, Laurence Wroe, Jacob Meyer Cohen, Logan Riggs Smith, Thomas Dooms

精选

这篇论文提出了一种新的权重度量方法——张量相似性（Tensor Similarity），用于判断两个神经网络是否实现相同的计算。现有方法要么依赖经验行为（对分布外机制不敏感），要么依赖基依赖参数（忽略权重空间对称性）。新方法通过递归算法捕捉跨层机制，对权重空间对称性保持不变，从而更准确地衡量全局功能等价性。实验表明，张量相似性在追踪训练动态（如grokking和后门插入）方面优于现有指标。这项工作将相似性测量和忠实性验证从经验近似问题转化为可解的代数问题。

论文可解释性神经网络张量相似性权重空间对称性功能等价性

推荐理由：做可解释性研究的团队终于有了一个不依赖经验近似、能真正衡量网络等价性的工具，值得关注。

原文

5月13日

21:36

21:36Anthropic: Research（资讯）

Anthropic 发布了其可解释性研究团队的官方页面，集中展示了团队在理解神经网络内部工作机制方面的核心工作。该团队致力于揭示 AI 模型如何做出决策、学习概念以及可能产生偏见，从而提升 AI 系统的安全性和可控性。页面介绍了团队的研究方向、关键成果以及开放职位，体现了 Anthropic 对 AI 安全与透明度的长期投入。对于关注 AI 安全、模型可解释性以及前沿研究的读者，这是一个重要的资源入口。

行业可解释性 AI安全 Anthropic 神经网络透明度

推荐理由：Anthropic 的可解释性工作是理解 AI 黑箱的关键，做 AI 安全或模型研究的团队值得收藏这个页面，直接了解最新成果和加入机会。

原文

5月12日

23:56

François Chollet@fchollet

François Chollet 在推文中澄清，符号学习（Symbolic learning）并非要取代编程智能体，而是作为梯度下降和神经网络的替代方案。他将其描述为一种低层次、完全通用且极其可扩展的新型学习基底。这一观点重新定义了符号学习的定位，表明它可能在未来AI系统中扮演更基础的角色，为模型优化提供不同于反向传播的新途径。

AI模型符号学习梯度下降神经网络 AI研究学习范式

推荐理由：重塑对符号学习的认知，明确其作为底层学习范式的潜力，对AI研究者和从业者理解未来方向有参考价值。

原文

5月11日

11:44

11:44arXiv cs.LG（学术论文）

研究者提出了一种名为Susceptibilities的技术，用于深度强化学习中神经网络的可解释性分析。该方法通过研究损失扰动对观测值后验期望的影响，扩展到RL的遗憾（regret）设置中。在简单的网格世界模型中，Susceptibilities能够揭示参数空间内模型发展的内部特征，而这些特征通过单纯学习策略发展无法检测。验证实验使用激活引导（activation-steering）证实了结果，并讨论了该方法扩展到RLHF后训练的可能性。这一工作为理解RL智能体的行为和学习过程提供了新的分析工具。

论文强化学习可解释性神经网络 RLHF

推荐理由：对强化学习研究者有参考价值，提供了超越传统策略分析的模型内部状态洞察方法，尤其可用于分析RLHF训练中的阶段变化。

原文

5月10日

14:00

14:00OpenAI Blog（博客/媒体）

精选

本文提出权重归一化（Weight normalization），一种通过重参数化权重向量来加速深度神经网络训练的简单技术。该方法将权重向量分解为方向向量和标量长度，并分别使用SGD优化，类似于Batch normalization的效果但计算开销更低。在MNIST、CIFAR-10等标准基准上，Weight normalization使网络收敛速度提升2-5倍，并能稳定训练极深网络（如100层ResNet）。实验表明，该方法与ReLU、Dropout等常用技术兼容，无需引入额外依赖。

论文 Weight normalization 重参数化训练加速神经网络 OpenAI

推荐理由：用简单重参数化加速训练，效果堪比BN但更轻量

原文