AITOP6月11日 15:28
精选
过去 24 小时,从 838 条中筛出 51 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月10日
11:03
11:03
arXiv cs.LG@Semih Kara, Oğuzhan Ersoy
精选
推荐理由:做自蒸馏或强化学习的研究者会发现,步骤对齐反馈比传统奖励信号更高效,直接提升模型推理质量,值得在实验中尝试这种上下文设计。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月28日
11:27
11:27
arXiv cs.AI@Jiazhen Huang, Xiao Chen, Xiao Luo, Yong Dai, Senkang Hu, Yuzhi Zhao
精选
推荐理由:做 LLM 推理优化的研究者可以关注——SGSD 用技能库替代参考答案作为先验,降低了蒸馏对标注数据的依赖,数学推理场景效果显著,值得在自蒸馏框架中尝试。
5月25日
12:05
12:05
AI Will@FinanceYF5
精选
推荐理由:做MoE模型部署或推理优化的团队,ZEDA直接解决了算力浪费问题——跳过一半专家还能保持效果,值得一试。
02:52
02:52
rohanpaul_ai@rohanpaul_ai
精选72°
推荐理由:部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token,推理速度提升20%且几乎不掉精度,做模型推理优化的开发者可以直接参考论文方法。
5月22日
10:46
10:46
arXiv: DeepSeek@Xiaogeng Liu, Xinyan Wang, Yingzi Ma, Yechao Zhang, Chaowei Xiao
精选
推荐理由:做推理模型蒸馏的团队终于有了一个简单有效的改进方向——不用改架构,只需调整token权重就能提升1分以上,值得在自家模型上复现。
5月19日
14:25
14:25
arXiv cs.AI@Qianhao Yuan, Jie Lou, Xing Yu, Hongyu Lin, Le Sun, Xianpei Han, Yaojie Lu
精选
推荐理由:多模态模型开发者常头疼的“看不清细节”问题,Vision-OPD用自蒸馏给出了一个轻量解法——不用外部模型或标注,直接让模型学会“自动放大”关键区域。做细粒度视觉理解或MLLM优化的团队值得关注。
5月13日
19:12
19:12
arXiv cs.AI@Yuxiao Yang, Xiaoyun Wang, Weitong Zhang
精选
推荐理由:如果你在做LLM推理优化或自蒸馏训练,OGLS-SD解决了教师-学生分布不匹配的痛点,用结果奖励校准logits的思路直接可复用,值得仔细看方法细节。
