6月20日
6月18日
6月10日
09:10
09:10arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang
精选76°
快手发布Keye-VL-2.0-30B-A3B,一个基于MoE架构的开源多模态基础模型,专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构,实现无损256K上下文处理,能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏(MOPD)和上下文/视频强化学习,解决了多任务对齐中的灾难性遗忘问题,仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中,Keye-VL-2.0在相似规模模型中达到最优性能,尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。
推荐理由:长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文,做视频分析或智能体应用的团队可以直接下载权重试试。
6月2日
5月29日
5月25日
5月14日
13:27
13:27arXiv cs.LG@Mind Lab, :, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Nolan Ho, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Qiuyu Jin, Fancy Kong, Andrew Lei, Kyrie Lei, Alexy Li, Lucian Li, Ray Li, Theo Li, Zhihui Li, Jiayi Lin, Kairus Liu, Kieran Liu, Logan Liu, Xiang Liu, Irvine Lu, Maeve Luo, Runze Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Rio Yang, Maxwell Yao, Carrie Ye, Regis Ye, Wenlin Ye, Josh Ying, Danney Zeng, Yuhan Zhan, Anya Zhang, Di Zhang, Ruijia Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Changhai Zhou, Yuhua Zhou, Xinyue Zhu, Murphy Zhuang
精选
MinT(MindLab Toolkit)是一个专为低秩适配(LoRA)后训练和在线推理设计的托管基础设施系统。它针对在少量昂贵基座模型上产生大量训练策略的场景,通过保持基座模型常驻内存,仅移动导出的LoRA适配器,避免了合并完整检查点的开销。MinT沿三个维度扩展:向上支持超过1T总参数的前沿密集和MoE架构;向下实现适配器仅占基座模型1%以下大小,在4B密集模型上步骤时间减少18.3倍;向外支持百万级可寻址策略目录和千级适配器并发波次。该系统使得在共享的1T级基座模型上训练和推理数百万LoRA策略成为可能。
推荐理由:做大规模LoRA训练和推理的团队终于有了正经的工程方案——MinT解决了策略数量爆炸时的资源浪费问题,用适配器分离和调度大幅降低成本,搞大模型服务的建议点开看看。
5月13日