6月5日
6月4日
12:10
12:10arXiv: DeepSeek@Jiongjiong Gu, Jianfeng Wang, Zidong Han, Yongqiao Wang, Pengfei Xia, Mingjie Zhang, Hong Liu, Yuanyi Xia, Jiajia Chu, Yifeng Tang, Hui Zang, Xin Yao, Qijie Qiu, Yuzhao Wang, Chuanfei Xu, Lin Zhang, Zhuonan Lai, Hongming Huang, Jiawei Qiu, Gong Zhang, Zhong Ming, Weipeng Cao
精选72°
FlexNPU 提出了一种透明的用户空间虚拟化层,用于华为Ascend NPU,通过拦截AscendCL API并路由操作到设备守护进程,实现无需修改模型代码、AI框架或NPU驱动即可解耦应用与物理设备。该方案支持动态PD共置调度,根据prefill(计算密集)和decode(内存带宽受限)的互补资源特性灵活调整,解决了静态PD分离的资源不平衡和数据移动问题。在384卡Ascend 910C部署DeepSeek-R1时,相比静态PD分离,吞吐量提升5.15%和26.33%;在Qwen2.5-7B上,相比静态PD共置,TTFT降低超过92%且TPOT几乎不变。实验表明,透明NPU虚拟化是实现高效、响应式LLM服务的实用基础。
推荐理由:FlexNPU 解决了LLM推理中prefill和decode阶段资源冲突的痛点,做模型部署和推理优化的团队可以直接参考其动态调度思路,尤其适合使用华为Ascend NPU的开发者。
10:56
10:56arXiv cs.AI@Linyao Chen, Qinlao Zhao, Zechen Li, Mingming Li, Likun Ni, Jinyu Chen, Yuhao Yao, Xuan Song, Noboru Koshizuka, Hiroki Kobayashi
AgentMob 提出了一种无需训练的 LLM 驱动智能体框架,用于个体级移动预测。它通过快速路径处理常规出行,对模糊情况则触发迭代工具调用,结合历史轨迹、停留概率和地理证据进行决策。在三个数据集上,AgentMob 在无需训练的 LLM 方法中表现最佳,GPT-5.4 在 BW 数据集上达到 71.42% 的 Acc@1。该方法显著提升了模糊预测的准确性,并提供了决策透明度。代码已开源。
推荐理由:做城市模拟、交通规划或政策分析的团队,终于有了一个无需训练就能解释预测结果的方案——AgentMob 在模糊场景下准确率提升 18%,建议直接试一下开源代码。

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。