全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

09:08

09:08

arXiv: DeepSeek@Wenxin Wang, Yule Hou, Yu Ji, Peng Qu, Youhui Zhang

精选72°

本地部署大型混合专家模型（MoE）在服务质量上远不及云端环境，即使低并发场景也存在四大差距：依赖降级模型、无法满足长预填充的30秒TTFT、解码吞吐量低于20 tokens/s、混合负载下并发能力差。本文提出CPU-GPU混合系统，通过流式加载预填充（SLP）将预填充吞吐提升至1200 tokens/s，支持32K提示词在30秒内完成；分布式SLP（DSLP）结合SmallEP专家并行，在双RTX 5090上达到1800 tokens/s和45K提示词；以及零拷贝共享权重的节点内预填充-解码分离、AVX-512优化的FP8 GEMV内核等技术。该系统在消费级CPU-GPU平台上实现了旗舰MoE模型的云级服务质量，无需数据中心基础设施即可获得高质量、低成本的本地推理。

论文 MoE模型 CPU-GPU混合推理优化本地部署 SLO

推荐理由：本地跑MoE大模型终于能追上云端的服务质量了——做本地部署的开发者可以直接参考这套CPU-GPU混合方案，不用再忍受降级模型和低吞吐。

6月2日

09:41

09:41

arXiv cs.AI@Zhiyao Xu, Aoxue Liu, Zhanjie Ding, Dan Zhao, Yong Jiang, Qing Li

稀疏激活的混合专家（MoE）模型在分布式推理中面临跨GPU通信和负载不均问题。现有方法通过全局路由痕迹平均化处理专家共激活模式，忽略了多任务场景下不同任务族的异质性。本文提出TACG框架，利用任务族特定的调度和共激活痕迹，为每个专家推导任务族偏好，重新加权共激活图，使同族专家优先部署在同一GPU上。同时引入GESR机制，复制通用专家到少量辅助GPU，在线推理时兼顾局部性和负载均衡。在三个开源MoE模型上，该方法平均降低通信成本31.39%，Jain公平指数达0.9975，且对推理数据分布偏移具有鲁棒性。

论文 MoE模型分布式推理通信优化任务感知分组负载均衡

推荐理由：MoE推理的通信瓶颈终于有了任务感知的解法——做多任务MoE部署的团队可以直接参考TACG的静态分组+GESR动态复制策略，实测通信成本降三成，公平性几乎无损。

5月27日

12:13

12:13

arXiv: DeepSeek@Xiongwei Zhu, Xiaojian Liao, Tianyang Jiang, Yusen Zhang, Liang Wang, Limin Xiao

精选

细粒度混合专家（MoE）模型在推理时只激活部分专家，但内存受限场景下只能缓存少量专家，未缓存的专家需从慢速外部存储获取，导致频繁换入换出和I/O开销。ReMoE提出一种路由器微调框架，通过偏向近期选中的专家来产生时间上稳定的路由，从而提升专家复用率，减少存储访问。实验表明，在DeepSeek和Qwen模型上，ReMoE将专家复用率提升26%，同时保持下游任务性能。在vLLM GPU-CPU专家卸载场景下，输出吞吐量提升8.4%；在Jetson Orin NX上使用llama.cpp时，TPOT降低43.6-49.8%，解码速度提升1.77-1.99倍。代码和模型已开源。

论文 MoE模型推理优化路由器微调专家复用边缘部署

推荐理由：ReMoE解决了内存受限设备上MoE模型推理的I/O瓶颈，做边缘部署或大模型推理优化的开发者可以直接试，开源代码让复现门槛很低。

5月25日

11:22

11:22

arXiv cs.LG@Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang

精选

研究者提出Complete-muE框架，解决了从密集FFN到混合专家（MoE）模型架构的超参数迁移问题。现有方法如μP和SDE无法处理MoE中专家数量变化带来的架构和每个专家token数同时改变的问题。Complete-muE通过双桥系统实现迁移：桥I利用激活宽度μP和归一化路由器尺度映射密集FFN到密集MoE；桥II通过激活专家缩放映射密集MoE到稀疏MoE，并处理一阶SDE学习率/权重衰减校正。实验表明，在语言模型和扩散模型预训练中，该框架能使超参数在多种MoE配置下保持稳定，实现“一次调参，迁移所有”的效果，显著加速MoE模型收敛。

论文 MoE模型超参数迁移缩放法则 Transformer 预训练

推荐理由：做大规模MoE模型训练的团队终于有了可靠的超参数迁移方案——不用为每个专家配置重新调参，直接复用密集模型的超参数即可，建议做预训练优化的点开看看。