6月12日
6月11日
6月10日
09:10
09:10arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang
精选76°
快手发布Keye-VL-2.0-30B-A3B,一个基于MoE架构的开源多模态基础模型,专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构,实现无损256K上下文处理,能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏(MOPD)和上下文/视频强化学习,解决了多任务对齐中的灾难性遗忘问题,仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中,Keye-VL-2.0在相似规模模型中达到最优性能,尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。
推荐理由:长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文,做视频分析或智能体应用的团队可以直接下载权重试试。
6月9日
09:47
09:47arXiv cs.AI@Yuan Zhang, Shiqi Zhang, Yedong Shen, Shuai Dong, Jiajun Deng, Xin Zhang, Yuxuan Gao, Jiajia Wu, Xin Nie, Zhiyuan Cheng, Jianmin Ji, Yanyong Zhang, Xingyi Zhang, Jia Pan
精选72°
GEAR-VLA 是一种新型视觉-语言-动作(VLA)框架,旨在解决现有 VLA 模型在真实部署中面对未见物体、背景变化和不同机器人本体时的泛化问题。它通过粗到细的动作学习、语义对齐的 3D 特征融合以及本体规范化,学习统一的几何感知动作表征。在 LIBERO、零样本 LIBERO-Plus 和 RoboTwin 2.0 上达到最先进性能,在 AgileX 上成功率 85.9%,在未见本体 LDT-01 上达 81.0%,在 212 个未见物体的通用抓取基准上达 90.1%。代码和模型将开源。
推荐理由:GEAR-VLA 解决了机器人操作中跨本体、跨场景泛化的核心痛点,做机器人操作研究的团队可以直接参考其粗到细动作学习与 3D 对齐方法,值得关注其开源代码。
6月8日
11:03
11:03arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov
ThinkBooster 是一个统一的测试时计算(TTC)扩展框架,旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试,以及兼容OpenAI的代理服务,支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡,并展示了实际增益。代码以MIT许可证开源。

推荐理由:做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益,不用再自己拼凑评估流程,建议直接试。
6月5日
6月4日
10:56
10:56arXiv cs.AI@Linyao Chen, Qinlao Zhao, Zechen Li, Mingming Li, Likun Ni, Jinyu Chen, Yuhao Yao, Xuan Song, Noboru Koshizuka, Hiroki Kobayashi
AgentMob 提出了一种无需训练的 LLM 驱动智能体框架,用于个体级移动预测。它通过快速路径处理常规出行,对模糊情况则触发迭代工具调用,结合历史轨迹、停留概率和地理证据进行决策。在三个数据集上,AgentMob 在无需训练的 LLM 方法中表现最佳,GPT-5.4 在 BW 数据集上达到 71.42% 的 Acc@1。该方法显著提升了模糊预测的准确性,并提供了决策透明度。代码已开源。
推荐理由:做城市模拟、交通规划或政策分析的团队,终于有了一个无需训练就能解释预测结果的方案——AgentMob 在模糊场景下准确率提升 18%,建议直接试一下开源代码。
10:35
10:35arXiv cs.AI@Zhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen
精选76°
AutoLab 是一个新基准,用于评估 AI 模型在超长周期闭环优化任务中的表现,涵盖系统优化、谜题挑战、模型开发和 CUDA 内核优化四个领域。每个任务从次优基线开始,要求智能体在严格时间预算内通过反复实验和反馈改进。测试 17 个前沿模型后发现,成功的关键不是初始尝试的质量,而是持续迭代和利用经验反馈的能力。Claude Opus 4.6 表现突出,但多数模型过早终止或进展有限。该基准开源,旨在推动长周期自主智能体的研究。
推荐理由:AutoLab 填补了现有基准只测短周期任务的空白,做 AI 智能体研究和开发的团队可以直接用它来测试模型的持久迭代能力,值得关注。
6月3日
11:12
11:12arXiv: OpenAI@Justice Owusu Agyemang, Jerry John Kponyo, Kwame Opuni-Boachie Obour Agyekum, Francisca Adoma Acheampong, Kwame Agyeman-Prempeh Agyekum, James Dzisi Gadze
精选
Entropy Gate 提出了一种基于熵淬火(entropy quenching)的令牌压缩框架,通过为每个令牌计算多因素信息能量,并模拟热力学过程逐步“冻结”低能量令牌,实现近无损压缩。该框架在五种提示类别上达到40-60%的压缩率,同时保持语义保真度(S_E > 0.80)。上下文去重可额外节省50-70%的重复块开销,输出端压缩进一步减少响应冗余。结合外部存储时,代理工作负载的压缩率可达88-96%。该方案无状态、模型无关,可作为兼容OpenAI的HTTP代理部署。

推荐理由:LLM 开发者常被冗长上下文和重复输出浪费大量令牌预算——Entropy Gate 用热力学思路解决了这个痛点,做长上下文推理或代理应用的团队可以直接集成,省令牌就是省成本。
10:45
10:45arXiv cs.LG@Tao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang, Yihao Liu, Jingwei Ni, Jiaqi Guo, Mengyu Zhou, Kai Tang, Junling Liu, Qinliang Su, Xiaoxi Jiang, Guanjun Jiang
精选
当前大语言模型后训练中的奖励模型依赖规则验证器、真实参考、程序检查表等异构标准,缺乏统一机制。Skill-RM 将奖励建模重构为可复用的“奖励评估技能”执行过程,通过智能体动态选择和聚合证据,实现一致且透明的评估。在奖励基准和下游任务(如 Best-of-N 选择和强化学习)中,Skill-RM 持续超越传统基线。该方法为奖励建模提供了统一解决方案,并通过策略性证据编排取得更优性能。代码已开源。
推荐理由:做 LLM 后训练(RFT/RL)的团队终于有了统一的奖励评估框架,不用再为不同任务拼凑规则和检查表了——Skill-RM 用智能体思路动态整合证据,效果还更好,做对齐和强化学习的建议直接看代码。
6月2日