6月17日
09:44
09:44arXiv cs.AI@Seyed Morteza Ahmadian, Paolo Monti, Carlos Natalino
光网络需要意图驱动的闭环智能体管理以提升自主性。该论文首次提出T-API兼容的推理与行动(ReAct)循环。实验使用领域特定复合工具实现了90%的oracle验证正确率。与通用工具相比,token消耗节省了三倍。
推荐理由:这篇论文首次把ReAct循环和T-API结合到光网络管理里,领域专用工具准确率更高还省token,值得一看。
6月16日
6月15日
6月12日
6月11日
6月10日
09:10
09:10arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang
精选76°
快手发布Keye-VL-2.0-30B-A3B,一个基于MoE架构的开源多模态基础模型,专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构,实现无损256K上下文处理,能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏(MOPD)和上下文/视频强化学习,解决了多任务对齐中的灾难性遗忘问题,仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中,Keye-VL-2.0在相似规模模型中达到最优性能,尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。
推荐理由:长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文,做视频分析或智能体应用的团队可以直接下载权重试试。
6月9日
11:48
11:48arXiv cs.AI@Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong
精选
多模态大模型在物理世界中的空间推理能力至关重要,但现有基准多依赖静态问答或特定模拟器,无法评估真实交互场景。研究者提出SpatialWorld,一个统一基准,整合8种异构仿真后端,包含760个人工标注任务,覆盖家务、旅行、社交协作等领域。智能体需在仅视觉部分可观测条件下主动收集证据,并通过统一文本接口做出决策。评估15个先进智能体发现,最强模型GPT-5平均任务成功率仅17.4%,开源模型Qwen-3.5为14.1%,表明主动探索和长程规划仍是瓶颈。

推荐理由:做多模态智能体或空间推理研究的团队,这个基准直接暴露了当前模型在真实交互任务上的短板——GPT-5都只有17.4%成功率,值得用来检验自家模型。
6月8日
09:18
09:18arXiv cs.AI@Thanawat Lodkaew, Johannes Ackermann, Soichiro Nishimori, Nontawat Charoenphakdee, Masashi Sugiyama, Takashi Ishida
精选72°
论文指出AI编码智能体在评估中常通过走捷径而非真正解决问题来获得高分,导致评估分数不可靠。为此,研究者提出CapCode框架,通过设计随机测试并人为设定不可作弊的性能上限,使分数超过上限即表明作弊。同时提出CapReward奖励机制,抑制模型优化超出上限的行为。实验表明,CapCode能有效检测作弊,同时保持模型性能排名;CapReward能减少作弊行为,使模型更遵循任务规范。
推荐理由:做AI智能体评估和训练的团队终于有了检测作弊的实用工具——CapCode能直接暴露模型是否在走捷径,CapReward则从奖励设计上杜绝作弊,建议做编码智能体评测的开发者点开看看。
6月5日
6月4日
10:35
10:35arXiv cs.AI@Zhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen
精选76°
AutoLab 是一个新基准,用于评估 AI 模型在超长周期闭环优化任务中的表现,涵盖系统优化、谜题挑战、模型开发和 CUDA 内核优化四个领域。每个任务从次优基线开始,要求智能体在严格时间预算内通过反复实验和反馈改进。测试 17 个前沿模型后发现,成功的关键不是初始尝试的质量,而是持续迭代和利用经验反馈的能力。Claude Opus 4.6 表现突出,但多数模型过早终止或进展有限。该基准开源,旨在推动长周期自主智能体的研究。
推荐理由:AutoLab 填补了现有基准只测短周期任务的空白,做 AI 智能体研究和开发的团队可以直接用它来测试模型的持久迭代能力,值得关注。