6月5日
6月4日
12:10
12:10arXiv: DeepSeek@Jiongjiong Gu, Jianfeng Wang, Zidong Han, Yongqiao Wang, Pengfei Xia, Mingjie Zhang, Hong Liu, Yuanyi Xia, Jiajia Chu, Yifeng Tang, Hui Zang, Xin Yao, Qijie Qiu, Yuzhao Wang, Chuanfei Xu, Lin Zhang, Zhuonan Lai, Hongming Huang, Jiawei Qiu, Gong Zhang, Zhong Ming, Weipeng Cao
精选72°
FlexNPU 提出了一种透明的用户空间虚拟化层,用于华为Ascend NPU,通过拦截AscendCL API并路由操作到设备守护进程,实现无需修改模型代码、AI框架或NPU驱动即可解耦应用与物理设备。该方案支持动态PD共置调度,根据prefill(计算密集)和decode(内存带宽受限)的互补资源特性灵活调整,解决了静态PD分离的资源不平衡和数据移动问题。在384卡Ascend 910C部署DeepSeek-R1时,相比静态PD分离,吞吐量提升5.15%和26.33%;在Qwen2.5-7B上,相比静态PD共置,TTFT降低超过92%且TPOT几乎不变。实验表明,透明NPU虚拟化是实现高效、响应式LLM服务的实用基础。
推荐理由:FlexNPU 解决了LLM推理中prefill和decode阶段资源冲突的痛点,做模型部署和推理优化的团队可以直接参考其动态调度思路,尤其适合使用华为Ascend NPU的开发者。
10:56
10:56arXiv cs.AI@Linyao Chen, Qinlao Zhao, Zechen Li, Mingming Li, Likun Ni, Jinyu Chen, Yuhao Yao, Xuan Song, Noboru Koshizuka, Hiroki Kobayashi
AgentMob 提出了一种无需训练的 LLM 驱动智能体框架,用于个体级移动预测。它通过快速路径处理常规出行,对模糊情况则触发迭代工具调用,结合历史轨迹、停留概率和地理证据进行决策。在三个数据集上,AgentMob 在无需训练的 LLM 方法中表现最佳,GPT-5.4 在 BW 数据集上达到 71.42% 的 Acc@1。该方法显著提升了模糊预测的准确性,并提供了决策透明度。代码已开源。
推荐理由:做城市模拟、交通规划或政策分析的团队,终于有了一个无需训练就能解释预测结果的方案——AgentMob 在模糊场景下准确率提升 18%,建议直接试一下开源代码。
10:37
10:37arXiv cs.AI@Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou, Heli Qi, Yifan Yao, Meishu Song, Kaijing Ma, Xuan Zhang, Sicong Jiang, Yizhe Li, Ningshan Ma, Jie Wei, Ziniu Li, Minglai Yang, Bangya Liu, Yiming Liang, Xiao Fang, Qingcheng Zeng, Jiarui Liu, Rui Yang, Shen Yan, Wenhao Huang, Jiaheng Liu, Zihan Wang, Weihao Xuan, Ge Zhang
精选
针对现有LLM知识基准存在的三个问题(学科代表性不足、标注激励不当、排名不稳定),研究者提出了KINA基准,包含899道题目,覆盖261个细粒度学科。该基准通过贪心近似算法确保学科代表性,并设计了锦标赛式奖励机制以提升标注质量。在13个实验室的42个模型评估中,Gemini-3.1-Pro-Preview以53.17%的准确率领先,Claude-Opus-4.6和GPT-5.4紧随其后,整体排名呈现分层结构,远未达到饱和。工具增强平均提升5.17个百分点,但模型间差异显著。该基准还提供了自举排名稳定性统计,避免对相邻排名的过度解读。
推荐理由:KINA 解决了 LLM 知识评估中学科代表性不足和排名不稳定的痛点,做模型评测或研究 LLM 知识边界的团队可以直接用这个基准来更可靠地对比模型,建议点开看看具体的设计和排名细节。
10:35
10:35arXiv cs.AI@Zhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen
精选76°
AutoLab 是一个新基准,用于评估 AI 模型在超长周期闭环优化任务中的表现,涵盖系统优化、谜题挑战、模型开发和 CUDA 内核优化四个领域。每个任务从次优基线开始,要求智能体在严格时间预算内通过反复实验和反馈改进。测试 17 个前沿模型后发现,成功的关键不是初始尝试的质量,而是持续迭代和利用经验反馈的能力。Claude Opus 4.6 表现突出,但多数模型过早终止或进展有限。该基准开源,旨在推动长周期自主智能体的研究。
推荐理由:AutoLab 填补了现有基准只测短周期任务的空白,做 AI 智能体研究和开发的团队可以直接用它来测试模型的持久迭代能力,值得关注。