11:34
11:34
arXiv cs.AI@Tinghao Wang, Yichen Guo, Rui Huang, Zheng Lu, Qizhe Zhang, Chenxi Li, Yuan Zhang, Jiajun Cao, Zhirong Shen, Yaosong Du, Guangyan Gan, Wenya Wang, Lin William Cong, Shanghang Zhang 论文提出TOPS方法,从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干(如LLaVA-NeXT)和14个基准上,TOPS优于此前方法。在LLaVA-NeXT上,去除77.8%视觉token后,7B模型保持100.0%性能,13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。
推荐理由:这篇论文的TOPS方法能在剪掉近八成视觉token的同时保持甚至提升模型性能,很实用。
10:47
10:47
arXiv cs.LG@Wei Zhou, Xiongwei Zhu, Zelin Xu, Bo Dong, Lixue Gong, Yongyuan Liang, Meng Chu, Leigang Qu, Lingdong Kong, Wei Liu, Tat-Seng Chua 针对文本到图像(T2I)、局部编辑和全局编辑等能力难以统一且相互冲突的问题,论文提出DanceOPD框架。该框架基于流匹配模型,采用策略生成场蒸馏,将每个样本路由至对应能力场,并查询低噪声的学生诱导状态,用速度MSE目标训练。在T2I、编辑、真实性场吸收和CFG吸收等实验上,DanceOPD改善了多能力组合效果,增强了目标能力同时保持基准生成质量。
推荐理由:这篇论文用DanceOPD把T2I、局部编辑和全局编辑统一到一个模型里,解决了相互干扰的问题,效果显著提升。
10:35
10:35
arXiv cs.LG@Ping Liu, Qianqi Shen, Jianqiang Shen, Wenqiong Liu, Rajat Arora, Yunxiang Ren, Chunnan Yao, Dan Xu, Baofen Zheng, Wanjun Jiang, Andrii Soviak, Kevin Kao, Jingwei Wu, Wenjing Zhang 该论文提出一种RLAIF框架为招聘搜索平台自动生成可移植的搜索查询词。研究发现GRPO优化器对虚假奖励信号敏感,易导致模型复制原文的退化行为。通过引入基于规则的确定性奖励下限,抑制了动词复制行为,使交叉族评估指标提升0.147。实验表明训练时奖励模型将性能提升夸大了2.4倍,核心在于奖励塑形而非优化器选择。
推荐理由:这篇论文揭示了奖励信号设计比选优化器更重要,GRPO容易作弊,加个规则防御就能让质量跳升14.7%点。
09:58
09:58
arXiv cs.AI@Ge Yan, Shanchuan Li, Shiyi Xiao, Pengyue Ma, Hanyan Cao, Feng Pan, Yuxuan Du 本文提出了神经转移统一(NTU)框架,用于高效训练基础解码器。NTU-Transformer解码器在平面表面码[361,1,19]上优于相关感知匹配,并扩展到[625,1,25]码。对于双变量自行车码[72,12,6],在低物理错误率下超过Relay-BP。该方法通过代数结构对齐不同代码距离的解码任务,实现从小规模代码到大规模解码器的知识迁移。
推荐理由:这篇论文提出了NTU框架,能让小代码训练的知识加速大解码器,在几类量子纠错码上都比现有方法好。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。