6月19日
10:12
10:12arXiv cs.AI@Gia-Binh Nguyen, Trong-Bao Ho, Thien-Loc Ha, Khoa Vo, Philip Lund Møller, Quang T. Nguyen, Long Dinh, Tuan Dam, Vu Duong, Tung M. Luu, Trung Le, Tran Nguyen Le, Minh Vu, An Thai Le, Ngan Le, Daniel Sonntag, James Zou, Jan Peters, Duy M. H. Nguyen, Ngo Anh Vien
VLA模型(如pi_0、GR00T-N1.5)参数规模达数十亿,微调计算成本高。本文通过中心核对齐(Centered Kernel Alignment)识别冗余层,无需训练即可移除最多50%的层。在LIBERO、RoboCasa、SimplerEnv三个模拟基准和10个真实操作任务、4种机器人本体上验证,压缩后模型性能与完整模型相当。微调时间减少40-50%,实时推理速度提升达30%。结果表明VLA模型实际所需层数远少于现有架构。
推荐理由:这篇论文发现VLA模型很多层是冗余的,用他们的方法可以白嫖50%层数,微调快一半,推理快30%,效果不降。搞机器人微调的可以试试。
10:10
10:10arXiv cs.AI@Bo Yin, Xiaobin Hu, Chengming Xu, Ruolin Shen, Mo Yang, Jiangning Zhang, Peng-Tao Jiang, Cheng Tan, Shuicheng YAN
SPOT-E方法针对视觉语言模型在处理证据密集型任务时因小区域视觉证据被忽略导致的读取失败问题。该方法利用答案跨度预测熵作为模型内部反馈,通过低熵锚点和熵整形目标消除歧义,避免模型陷入捷径塌缩。SPOT-E基于GRPO进行每实例轻量级调优,生成问题条件化的聚光灯。在多个VLM族和基准测试中,SPOT-E一致提升了性能并增强了视觉损坏鲁棒性。代码已开源。
推荐理由:SPOT-E这个新方法挺有意思,它不重训模型,只在推理时搞了个视觉聚光灯和熵整形,就让VLM在那些需要细看局部证据的任务上表现好多了。尤其用GRPO调优,效果提升还挺稳定。

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。