精选 AI 资讯 · AI 热点

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

12:10

arXiv: DeepSeek@Jiongjiong Gu, Jianfeng Wang, Zidong Han, Yongqiao Wang, Pengfei Xia, Mingjie Zhang, Hong Liu, Yuanyi Xia, Jiajia Chu, Yifeng Tang, Hui Zang, Xin Yao, Qijie Qiu, Yuzhao Wang, Chuanfei Xu, Lin Zhang, Zhuonan Lai, Hongming Huang, Jiawei Qiu, Gong Zhang, Zhong Ming, Weipeng Cao

精选72°

FlexNPU 提出了一种透明的用户空间虚拟化层，用于华为Ascend NPU，通过拦截AscendCL API并路由操作到设备守护进程，实现无需修改模型代码、AI框架或NPU驱动即可解耦应用与物理设备。该方案支持动态PD共置调度，根据prefill（计算密集）和decode（内存带宽受限）的互补资源特性灵活调整，解决了静态PD分离的资源不平衡和数据移动问题。在384卡Ascend 910C部署DeepSeek-R1时，相比静态PD分离，吞吐量提升5.15%和26.33%；在Qwen2.5-7B上，相比静态PD共置，TTFT降低超过92%且TPOT几乎不变。实验表明，透明NPU虚拟化是实现高效、响应式LLM服务的实用基础。

论文 NPU虚拟化 LLM推理 Prefill-Decode共置 Ascend NPU 动态调度

推荐理由：FlexNPU 解决了LLM推理中prefill和decode阶段资源冲突的痛点，做模型部署和推理优化的团队可以直接参考其动态调度思路，尤其适合使用华为Ascend NPU的开发者。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02