6月10日
12:09
12:09arXiv cs.LG@Paul Fergus, Philip Stephens, Russell A. Hill, Lee Oliver, Katie Appleby, Sarah Beatham, Naomi Davies Walsh, Stuart Nixon, Naomi Matthews, Chris Sutherland, Kelly Hitchcock
精选
研究人员发布了一款开源目标检测模型YOLO26x,专门用于识别英国常见的28种哺乳动物和鸟类,以及人类、校准杆和车辆等3个实用类别。该模型基于10年运营部署中收集的48,165个标注实例训练,在验证集上平均精度达到0.984(IoU 0.5),召回率0.965。模型以ONNX格式发布,支持本地桌面和实时摄像头,面向无机器学习经验的生态学家,旨在打破商业平台对相机陷阱AI的垄断。
推荐理由:生态学家和野生动物监测团队终于有了免费、高精度的AI工具,可以直接在本地运行,无需依赖付费平台。做生物多样性研究的建议试试这个模型,能大幅减少手动标注图像的时间。
09:10
09:10arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang
精选76°
快手发布Keye-VL-2.0-30B-A3B,一个基于MoE架构的开源多模态基础模型,专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构,实现无损256K上下文处理,能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏(MOPD)和上下文/视频强化学习,解决了多任务对齐中的灾难性遗忘问题,仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中,Keye-VL-2.0在相似规模模型中达到最优性能,尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。
推荐理由:长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文,做视频分析或智能体应用的团队可以直接下载权重试试。
5月22日
10:45
10:45arXiv: DeepSeek@Mao Zheng, Zheng Li, Tao Chen, Bo Lv, Mingrui Sun, Mingyang Song, Jinlong Song, Hong Huang, Decheng Wu, Hai Wang, Yifan Song, Yanfeng Chen, Guanwei Zhang, Guanghua Yu, Yi Su, Hong Liu, Jinxiang Ou, Keyao Wang, Weile Chen, Haozhao Kuang, Kai Wang, Nuo Chen, Zihao Zheng, Chenhao Wang, Bin Xing, Chengcheng Xu, Tinghao Yu, Binghong Wu, Long Xu, Jiacheng Shi, Yunhao Wang, Baifang Chen, Lei Zhang, Qi Yang, Zhao Wu, Jiacheng Li, Lan Jiang, Lanrui Wang, Kai Zhang, Shuaipeng Li, Zhongzhi Chen, Weixuan Sun, Jiaqi Zhu, An Wang, Wei Li, Jun Xia, Weidong Han, Wutian Yang, Litong Hui, Luoguo Jia, Jiajia Wu, Xinpeng Zhou, Tianxiang Fei
精选
Hy-MT2 是一系列面向复杂真实场景的快速多语言翻译模型,包含 1.8B、7B 和 30B-A3B(MoE)三个尺寸,支持 33 种语言间的翻译。通过 AngelSlim 1.25-bit 极端量化,1.8B 模型仅需 440MB 存储,推理速度提升 1.5 倍,适合端侧部署。在通用、商业、领域和指令跟随翻译任务中,7B 和 30B 模型在快速思考模式下超越 DeepSeek-V4-Pro 和 Kimi K2.6 等开源模型,1.8B 模型整体也优于微软和豆包等主流商业 API。该工作为多语言翻译提供了高效且强大的新选择。

推荐理由:做多语言翻译或端侧部署的团队终于有了一个又快又准的选择——1.8B 量化后 440MB 就能跑,性能还超过微软豆包 API,值得直接上手试。
5月21日
5月14日
13:26
13:26arXiv: DeepSeek@Zhongkai Yu, Yichen Lin, Chenyang Zhou, Yuwei Zhang, Kun Zhou, Junxia Cui, Haotian Ye, Zhengding Hu, Zaifeng Pan, Ruiyi Wang, Yujie Zhao, Hejia Zhang, Jingbo Shang, Jishen Zhao, Yufei Ding
精选
ChipMATE是首个自训练的多智能体RTL代码生成框架,解决了现有API系统依赖黄金测试平台、无法在气隙环境中部署、不能利用厂商私有代码库的问题。它通过Verilog智能体与Python参考模型智能体相互验证,无需黄金标准即可实现正确性。采用回溯推理工作流防止错误传播,两阶段训练先独立训练再联合协作。在VerilogEval V2上,4B和9B模型分别达到75.0%和80.1%的pass@1,超越所有自训练模型甚至1600B参数的DeepSeek V4。代码和权重已开源。
推荐理由:芯片设计团队终于有了可私有化部署的RTL生成方案——ChipMATE不依赖闭源API、无需黄金测试平台,还能用厂商内部代码训练,做数字IC设计的开发者可以直接试。