11:15
11:15
arXiv cs.AI@Jinghong Lan, Wei Cheng, Yunuo Chen, Ziqi Ye, Peng Xing, Yixiao Fang, Rui Wang, Yufeng Yang, Xuanyang Zhang, Xianfang Zeng, Difan Zou, Gang Yu, Chi Zhang FreeStyle提出一种基于社区LoRA挖掘的可扩展双参考生成框架,利用社区LoRA作为风格和内容的组合锚点,构建大规模三元组数据(风格参考和内容参考)。采用两阶段课程,包括注意力级富集约束抑制风格参考泄漏,以及频率感知RoPE调制解决位置对应泄漏。引入新基准,包含风格不变内容对齐分数(CAS)和基于VLM的拒绝分数。实验表明,FreeStyle在风格对齐、内容保持和泄漏抑制之间取得强平衡。
推荐理由:想同时控制图片风格和内容?FreeStyle用社区LoRA搞定双参考生成,还自带防泄漏机制,比以往方法更稳。
10:16
10:16
arXiv cs.AI@Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang, Jingwen Fu, Zhen Liu, Bin Qin, Zhenbo Luo, Jian Luan, Jingmin Xin ELVA提出一种基于规则强化学习(RLVR)的框架,解决对比学习在多模态检索中的“粒度盲视”问题——模型忽略查询中的粒度信息。该方法不依赖奖励模型,通过规则奖励联合优化负样本排序并扩大正负样本相似度差距。为精准评估,作者引入新基准MRBench,专用于多粒度查询场景。ELVA在标准检索基准上达到最先进结果,并在MRBench上实现13.1%的提升。
推荐理由:这篇论文提出了ELVA,用强化学习思路改多模态检索,解决了对比学习忽略粒度的问题,还在新基准MRBench上提了13.1%,值得做检索方向的人看看。
10:12
10:12
arXiv cs.AI@Gia-Binh Nguyen, Trong-Bao Ho, Thien-Loc Ha, Khoa Vo, Philip Lund Møller, Quang T. Nguyen, Long Dinh, Tuan Dam, Vu Duong, Tung M. Luu, Trung Le, Tran Nguyen Le, Minh Vu, An Thai Le, Ngan Le, Daniel Sonntag, James Zou, Jan Peters, Duy M. H. Nguyen, Ngo Anh Vien VLA模型(如pi_0、GR00T-N1.5)参数规模达数十亿,微调计算成本高。本文通过中心核对齐(Centered Kernel Alignment)识别冗余层,无需训练即可移除最多50%的层。在LIBERO、RoboCasa、SimplerEnv三个模拟基准和10个真实操作任务、4种机器人本体上验证,压缩后模型性能与完整模型相当。微调时间减少40-50%,实时推理速度提升达30%。结果表明VLA模型实际所需层数远少于现有架构。
推荐理由:这篇论文发现VLA模型很多层是冗余的,用他们的方法可以白嫖50%层数,微调快一半,推理快30%,效果不降。搞机器人微调的可以试试。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。