AITOP6月11日 15:28
精选
过去 24 小时,从 660 条中筛出 46 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
14:06
14:06IT之家(博客/媒体)
精选72°
推荐理由:苹果端侧 AI 架构迎来重大更新,CoreAI 在小模型推理上显著提速,做本地 AI 应用或模型部署的开发者值得关注,尤其是 M4 Mac 用户可以直接感受到更快的响应。
6月3日
10:38
10:38
arXiv cs.LG@Ting-Yun Chang, Harvey Yiyun Fu, Deqing Fu, Chenghao Yang, Jesse Thomason, Robin Jia
精选
推荐理由:推理模型的长输出让内存和计算成本飙升,VaSE用随机淘汰策略在4倍压缩下保持高准确率,做推理模型优化的开发者可以直接参考论文实现。
6月2日
11:10
11:10
arXiv cs.AI@Ekaterina Alimaskina, Darya Rudas, Denis Shveykin, Gleb Molodtsov, Pavel Vasiliev, Aleksandr Beznosikov
精选72°
推荐理由:做推理模型量化和部署的团队终于有了针对 2-bit 失败模式的系统解法——不是简单降精度,而是用 FP16 规划和循环救援来修复生成过程,Qwen3 用户可以直接复现并提升准确率。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月28日
11:56
11:56
arXiv: DeepSeek@Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho
精选72°
推荐理由:这个框架解决了MoE模型在内存受限设备上部署的痛点,做模型压缩和边缘部署的团队可以直接参考其方法,比传统剪枝效果更好且训练更快。
5月25日
02:52
02:52
rohanpaul_ai@rohanpaul_ai
精选72°
推荐理由:部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token,推理速度提升20%且几乎不掉精度,做模型推理优化的开发者可以直接参考论文方法。
5月19日
14:46
14:46
arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo
精选72°
推荐理由:做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法,想省掉手动造环境成本的开发者可以直接用。
5月13日
19:12
19:12
arXiv cs.AI@Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
精选75°
推荐理由:这篇论文为资源受限的团队提供了明确的训练策略——用最强模型做探索、用小模型做部署,做模型压缩或后训练的开发者可以直接参考这个稀疏到稠密的分配原则来提升效率。
15:51
15:51
Perplexity@perplexity_ai
精选
推荐理由:做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著,Perplexity 的实践给出了可直接参考的优化路径。
