AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:混合专家模型×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月5日
12:20
12:20arXiv cs.AI@Lizhi Yang, Junheng Li, Nehar Poddar, Yiling Hou, Gio Huh, Robert Griffin, Georgia Gkioxari, Aaron Ames
精选
HANDOFF 提出了一种紧凑、直观的接口,用于人形机器人的任务规划与全身控制之间的连接。该接口通过多教师 KL 蒸馏和上下文条件门控机制,将三个互补专家(全身运动跟踪、行走、跌倒恢复)蒸馏成一个混合专家学生模型。在 Unitree G1 机器人上,HANDOFF 实现了与最先进方法相当的行走速度跟踪,并提供了最大的鲁棒操作工作空间之一。此外,通过 VLM 驱动的智能体规划器,无需任务特定数据或控制器微调,即可实现自然语言驱动的任务执行。这项工作为人形机器人在现实世界中的部署提供了更高效、更通用的控制方案。
论文人形机器人全身控制知识蒸馏混合专家模型Unitree G1

推荐理由:人形机器人开发者终于有了一个更直观、通用的控制接口——HANDOFF 通过蒸馏多个专家模型,让机器人能同时做好行走、操作和跌倒恢复,做机器人全身控制的团队可以直接参考其方法。
原文
5月28日
11:56
11:56arXiv: DeepSeek@Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho
精选72°
该研究提出了首个系统化框架,将混合专家模型(MoE)转换为标准全稠密架构。通过专家评分、选择、分组并拼接成稠密前馈网络,再通过知识蒸馏从MoE教师模型精炼。在Qwen3-30B-A3B上评估了7种评分、5种分组和2种幅度缩放方法,共350种配置。发现评分方法影响最大,其提出的多样性感知评分在多个模型上优于先前方法。在参数匹配控制下,MoE转稠密比稠密到稠密剪枝平均下游准确率提升6.3个百分点,训练速度快1.6倍。
论文模型压缩知识蒸馏混合专家模型稠密模型Qwen3

推荐理由:这个框架解决了MoE模型在内存受限设备上部署的痛点,做模型压缩和边缘部署的团队可以直接参考其方法,比传统剪枝效果更好且训练更快。
原文
5月22日
11:26
11:26arXiv cs.LG@Huanchi Wang, Zihang Huang, Yifang Tian, Kristina Dzeparoska, Hans-Arno Jacobsen, Alberto Leon-Garcia
精选
FAME 提出了一种标签高效的混合专家框架,用于消息级日志异常检测。传统方法在会话或窗口级别检测异常,粒度粗糙,迫使运维人员检查大量常规日志行。FAME 通过离线使用一次大语言模型,为每个模板标注最多 K 行,生成正常/异常指示符和代表性示例,并自动将模板划分为故障域。训练后的轻量路由器和领域专家可在本地运行,输出异常预测和故障域标签。在 BGL 数据集上,FAME 在 K=100 时达到 F1=98.16,标注量减少 76 倍,并检测出 86.3% 的未见 EventID 异常;在 Thunderbird 上达到 F1=99.95 且召回率完美。
论文日志异常检测混合专家模型LLM标签高效故障域

推荐理由:运维团队终于有了兼顾精度和效率的日志异常检测方案——FAME 用一次 LLM 离线标注就解决了消息级检测的痛点,标注量减少 76 倍还能发现未知故障,做日志分析或运维自动化的开发者值得关注。
原文
5月21日
11:25
11:25arXiv cs.AI@Can Hankendi, Rana Shahout, Minlan Yu, Ayse K. Coskun
精选
PALS是一个针对大语言模型推理的功耗感知运行时系统,将GPU功耗上限作为可调控制参数,与批处理大小等软件参数联合优化。该系统结合轻量级离线功耗性能模型和反馈驱动控制器,在满足吞吐量目标的同时最大化能效。在vLLM框架中实现,无需模型重训练或API更改。在多GPU系统上,针对稠密和混合专家模型,PALS能效提升最高26.3%,功耗约束下服务质量违规减少4到7倍。这展示了将功耗控制直接集成到LLM推理运行时中的潜力,可实现能效比例和电网交互式AI系统。
论文LLM推理功耗优化混合专家模型vLLM能效

推荐理由:数据中心GPU能耗是AI部署的隐形杀手,PALS把功耗从硬约束变成可调参数,做LLM服务部署的团队可以直接在vLLM上集成,省电又保性能,值得一试。
原文
精选全部日报登录