全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

09:08

09:08

arXiv: DeepSeek@Wenxin Wang, Yule Hou, Yu Ji, Peng Qu, Youhui Zhang

精选72°

本地部署大型混合专家模型（MoE）在服务质量上远不及云端环境，即使低并发场景也存在四大差距：依赖降级模型、无法满足长预填充的30秒TTFT、解码吞吐量低于20 tokens/s、混合负载下并发能力差。本文提出CPU-GPU混合系统，通过流式加载预填充（SLP）将预填充吞吐提升至1200 tokens/s，支持32K提示词在30秒内完成；分布式SLP（DSLP）结合SmallEP专家并行，在双RTX 5090上达到1800 tokens/s和45K提示词；以及零拷贝共享权重的节点内预填充-解码分离、AVX-512优化的FP8 GEMV内核等技术。该系统在消费级CPU-GPU平台上实现了旗舰MoE模型的云级服务质量，无需数据中心基础设施即可获得高质量、低成本的本地推理。

论文 MoE模型 CPU-GPU混合推理优化本地部署 SLO

推荐理由：本地跑MoE大模型终于能追上云端的服务质量了——做本地部署的开发者可以直接参考这套CPU-GPU混合方案，不用再忍受降级模型和低吞吐。