AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:Mixture-of-Experts×
6月17日
10:16
10:16arXiv cs.LG@Viet-Hoang Tran, Vinh Khanh Bui, Tan Lai Ngoc, Nam Nguyen, Tuan Dam, Tan M. Nguyen
该论文提出了一个统一框架,用于刻画现代神经网络架构(如使用GELU、SiLU、SwiGLU激活的前馈网络、具备正弦和旋转位置编码的多头注意力、以及多种门控设计的混合专家模型)中的梯度下降守恒定律。此前守恒定律仅在线性和ReLU网络中被理解。实验验证了所预测的不变量。
论文GELUSiLUSwiGLUMixture-of-Experts守恒定律

推荐理由:想知道GELU、多头注意力这些架构背后为什么有隐式偏好?这篇论文给出了严格的理论解释。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月15日
11:10
11:10arXiv cs.AI@Hugo Daumain, Driss Matrouf, Khaled Khelif, Mickael Rouvier
语音生成技术的进步使合成语音越来越自然,导致欺骗检测更加困难。本研究将自监督语音表示模型转换为混合专家(MoE)架构,替换编码器层的前馈块为多个专家网络,并通过层间门控机制控制专家激活。专家网络能捕获互补的声学模式,同时保留自监督预训练学到的表示。在14个欺骗数据集上的评估显示,宏等错误率(EER)从5.46%降至4.81%,相对提升11.9%。
论文Self-Supervised Speech ModelMixture-of-ExpertsAnti-SpoofingAI安全

推荐理由:MoE让反欺骗更强,EER降11.9%
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录