AITOP6月11日 15:28
精选
过去 24 小时,从 654 条中筛出 45 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月9日
12:36
12:36
arXiv cs.LG@Alexander Chulzhanov, Soeren Eberhardt, Arjun Mukherjee
精选
推荐理由:低资源语言NMT研究者终于有了一个不依赖网络爬虫的可行方案——用社区词典合成数据+LoRA微调就能启动翻译模型,做濒危语言数字化的团队值得关注。
6月5日
13:22
13:22
arXiv cs.LG@Marius Dragoi, Ioana Pintilie, Alexandra Dragomir, Antonio Barbalau, Florin Brad
精选
推荐理由:持续学习是让模型不断吸收新知识而不遗忘旧知识的关键技术,做模型微调或增量学习的开发者可以关注 TailLoR 如何用谱分解优雅解决灾难性遗忘问题。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月25日
11:19
11:19
arXiv cs.AI@Ming Yang, Tao Yu, Feng Li, Hua Chen
精选
推荐理由:人形机器人开发者终于有了低成本复用预训练模型的方法——Any2Any 用 1% 的数据和算力就能迁移全身跟踪能力,做机器人部署的团队可以直接参考。
5月21日
10:22
10:22
arXiv cs.LG@Yongkang Liu, Xing Li, Mengjie Zhao, Shanru Zhang, Zijing Wang, Qian Li, Shi Feng, Feiliang Ren, Daling Wang, Hinrich Schütze
精选
推荐理由:做模型微调的开发者如果受限于LoRA的低秩瓶颈,SMoA提供了一种在更少参数下覆盖更广频谱方向的新思路,值得在资源敏感任务中尝试。
5月15日
09:54
09:54
arXiv cs.AI@Paolo Mandica, Michał Brzozowski, Zuzanna Dubanowska, Neo Christopher Chung
精选
推荐理由:GPart 用极简设计解决了 LoRA 等方法的优化扭曲问题,做模型微调的研究者和工程师可以直接参考其理论框架,尤其适合追求极致参数效率的团队。
