AITOP6月11日 15:28
精选
过去 24 小时,从 838 条中筛出 51 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
09:51
09:51
arXiv cs.AI@Shang Ma, Jisheng Dang, Wencan Zhang, Yifan Zhang, Bimei Wang, Hong Peng, Bin Hu, Qi Tian, Tat-Seng Chua
精选
推荐理由:社交智能推理是 AI 理解人类互动的关键,MODF-SIR 用轻量模型和蒸馏技术解决了长尾事件被忽略的痛点,做多模态社交分析或人机交互的团队可以直接用开源代码复现。
6月5日
12:20
12:20
arXiv cs.AI@Lizhi Yang, Junheng Li, Nehar Poddar, Yiling Hou, Gio Huh, Robert Griffin, Georgia Gkioxari, Aaron Ames
精选
推荐理由:人形机器人开发者终于有了一个更直观、通用的控制接口——HANDOFF 通过蒸馏多个专家模型,让机器人能同时做好行走、操作和跌倒恢复,做机器人全身控制的团队可以直接参考其方法。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月28日
11:56
11:56
arXiv: DeepSeek@Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho
精选72°
推荐理由:这个框架解决了MoE模型在内存受限设备上部署的痛点,做模型压缩和边缘部署的团队可以直接参考其方法,比传统剪枝效果更好且训练更快。
5月27日
12:16
12:16
arXiv: DeepSeek@Guanghui Wang, Kaiwen Lv Kacuila, Zhiyong Yang, Zitai Wang, Jin-Wen Wu, Longtao Huang, Qianqian Xu, Qingming Huang
精选72°
推荐理由:做 LLM 蒸馏的团队终于有了理论指导——Bridge-Garden 理论解释了为什么混合标签有效,并且直接给出了可落地的方案,训练成本还降了 9.7 倍,建议做模型压缩的开发者点开看看。
5月25日
11:25
11:25
arXiv cs.LG@Taiming Lu, Zhuang Liu
精选72°
推荐理由:做LLM预训练或知识蒸馏的团队,这篇论文直接挑战了“教师越强越好”的默认假设,看完可能会重新设计你的蒸馏策略,值得细读。
5月20日
10:35
10:35
arXiv cs.AI@Hyunsoo Han, Sangyeop Yeo, Jaejun Yoo
精选
推荐理由:做扩散模型轻量化或模型压缩的团队,终于有了一个在极端压缩下仍能稳定训练的蒸馏方案,值得直接复现实验。
5月19日
14:29
14:29
arXiv cs.AI@Aditya Tanna, Nassim Bouarour, Mohamed Bouadi, Vinay Kumar Sankarapu, Pratinav Seth
精选
推荐理由:医疗AI团队终于有了低成本部署高精度表格模型的方案——蒸馏后模型保留90%性能且快26倍,做健康数据预测的开发者可以直接用。
5月13日
19:12
19:12
arXiv: DeepSeek@Zizhao Chen, Yuying Li, Siting Lin, Lianxi Wang
精选75°
推荐理由:这篇论文为LLM推理效率问题提供了理论严谨且可落地的解决方案,做推理优化或模型压缩的研究者可以直接参考其变分蒸馏方法,值得细读。
19:12
19:12
arXiv cs.AI@Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
精选75°
推荐理由:这篇论文为资源受限的团队提供了明确的训练策略——用最强模型做探索、用小模型做部署,做模型压缩或后训练的开发者可以直接参考这个稀疏到稠密的分配原则来提升效率。
