6月10日
09:10
09:10arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang
精选76°
快手发布Keye-VL-2.0-30B-A3B,一个基于MoE架构的开源多模态基础模型,专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构,实现无损256K上下文处理,能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏(MOPD)和上下文/视频强化学习,解决了多任务对齐中的灾难性遗忘问题,仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中,Keye-VL-2.0在相似规模模型中达到最优性能,尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。
推荐理由:长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文,做视频分析或智能体应用的团队可以直接下载权重试试。
6月9日
09:47
09:47arXiv cs.AI@Yuan Zhang, Shiqi Zhang, Yedong Shen, Shuai Dong, Jiajun Deng, Xin Zhang, Yuxuan Gao, Jiajia Wu, Xin Nie, Zhiyuan Cheng, Jianmin Ji, Yanyong Zhang, Xingyi Zhang, Jia Pan
精选72°
GEAR-VLA 是一种新型视觉-语言-动作(VLA)框架,旨在解决现有 VLA 模型在真实部署中面对未见物体、背景变化和不同机器人本体时的泛化问题。它通过粗到细的动作学习、语义对齐的 3D 特征融合以及本体规范化,学习统一的几何感知动作表征。在 LIBERO、零样本 LIBERO-Plus 和 RoboTwin 2.0 上达到最先进性能,在 AgileX 上成功率 85.9%,在未见本体 LDT-01 上达 81.0%,在 212 个未见物体的通用抓取基准上达 90.1%。代码和模型将开源。
推荐理由:GEAR-VLA 解决了机器人操作中跨本体、跨场景泛化的核心痛点,做机器人操作研究的团队可以直接参考其粗到细动作学习与 3D 对齐方法,值得关注其开源代码。
6月8日
11:03
11:03arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov
ThinkBooster 是一个统一的测试时计算(TTC)扩展框架,旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试,以及兼容OpenAI的代理服务,支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡,并展示了实际增益。代码以MIT许可证开源。

推荐理由:做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益,不用再自己拼凑评估流程,建议直接试。
6月7日