6月20日
6月19日
10:10
10:10arXiv cs.AI@Bo Yin, Xiaobin Hu, Chengming Xu, Ruolin Shen, Mo Yang, Jiangning Zhang, Peng-Tao Jiang, Cheng Tan, Shuicheng YAN
SPOT-E方法针对视觉语言模型在处理证据密集型任务时因小区域视觉证据被忽略导致的读取失败问题。该方法利用答案跨度预测熵作为模型内部反馈,通过低熵锚点和熵整形目标消除歧义,避免模型陷入捷径塌缩。SPOT-E基于GRPO进行每实例轻量级调优,生成问题条件化的聚光灯。在多个VLM族和基准测试中,SPOT-E一致提升了性能并增强了视觉损坏鲁棒性。代码已开源。
推荐理由:SPOT-E这个新方法挺有意思,它不重训模型,只在推理时搞了个视觉聚光灯和熵整形,就让VLM在那些需要细看局部证据的任务上表现好多了。尤其用GRPO调优,效果提升还挺稳定。
06:40
6月18日
10:57
10:57arXiv cs.LG@Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro
论文提出 Act2Answer 协议,通过让智能体在桌面场景中执行物体放置动作来选择答案,从而在动作层面评估 7 个 VLA 模型和 9 个 VLM 基线在常识与知识任务上的表现。研究发现,VLA 在简单概念上表现扎实,但在丰富语义类别上相比源 VLM 出现更大差距。实验还表明,VQA 联合训练有助于提升知识保留,而答案相关信息在 VLA 中层达到峰值,上层则衰减。
推荐理由:想知道微调后的机器人模型到底还记不记得常识?这篇论文用动作答题的方式测了7个VLA,发现简单概念还行,复杂知识掉得厉害。
6月17日
10:17
10:17arXiv cs.LG@Haoqi Yuan, Zhixuan Liang, Anzhe Chen, Ye Wang, Haoyang Li, Pei Lin, Yiyang Huang, Zixing Lei, Tong Zhang, Jiazhao Zhang, Jie Zhang, Jingyang Fan, Gengze Zhou, Qihang Peng, Chenxu Lv, Xiaoyue Chen, An Yang, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou, Chenfei Wu, Xiong-Hui Chen
83°
Qwen-RobotManip是基于Qwen-VL构建的视觉-语言-动作基础模型。它引入统一对齐框架,覆盖表示、运动和操作行为三个维度,使多源训练数据协调一致。通过人工到机器人的合成流水线,利用15种平台的示教数据,构建了约38,100小时的预训练语料。模型在RoboCasa365、LIBERO-Plus、EBench等OOD基准上显著优于先前最佳模型π0.5,并在AgileX ALOHA、Franka、UR、ARX等真实机器人平台上验证。

推荐理由:阿里Qwen团队这个机器人模型用开源数据和人类演示就能学,跨平台零样本操作,还在多个测试里碾压了π0.5,做机器人开发的别错过。
6月16日
09:44
09:44arXiv cs.AI@Maonan Wang, Zhengyan Huang, Kemou Jiang, Yuhang Fu, Jiayue Zhu, Yuxin Cai, Xingchen Zou, Qiaosheng Zhang, Yi Yu, Ding Wang, Xi Chen, Ben M. Chen, Yuxuan Liang, Zhiyong Cui, Man On Pun, Yirong Chen
OmniTraffic是一个基于12个真实十字路口重建3D环境的可控生成管道,可编辑车道拓扑、信号相位等参数。它产出800万VQA样本和3000个人工验证的测试集,覆盖场景感知、多视角推理和决策支持三个层级。评估11个前沿MLLM显示人类与模型间存在显著差距,尤其在拓扑和时空推理任务上。基于OmniTraffic模拟数据微调轻量级MLLM后,在真实场景中性能得到提升。
推荐理由:想研究交通场景的多模态推理?OmniTraffic提供了大规模可控数据集和基准,还能用模拟数据微调小模型提升真实表现,很实用。
6月15日