15:54Decoder@Maximilian SchreineriLLaDA是ByteDance和中国人民大学联合发布的8B参数扩散语言模型,采用与ChatGPT不同的文本生成方式。在基础性能评估中,iLLaDA的基准水平与Qwen2.5持平,但经过微调后表现落后。该模型展示了扩散方法在语言建模中的潜力,但优化后仍需改进。AI模型iLLaDAByteDanceQwen2.5扩散语言模型2 个信源在谈推荐理由:字节跳动发了新模型iLLaDA,8B参数用扩散方式生成文本,基础性能不输Qwen2.5,微调后稍弱,适合想了解非自回归路线的读者。原文
10:57arXiv cs.AI@Chenyu Zhou, Qiliang Jiang, Shuning Wu, Xu Zhou论文提出MAST方法,在Qwen2.5-Math-1.5B和Qwen3-1.7B-Base上选择性遗忘RLVR诱导的推理,相比全参数更新附带损害更小。MAST通过token级delta-log-probability分析发现SFT-to-RLVR增量与SFT更新差异显著,全参数梯度上升会损害MATH和GSM8K保留性能。MAST基于离主成分能量、更新幅度和遗忘梯度耦合幅度排序注意力投影张量,仅更新前k个子集。在Qwen2.5-Math-1.5B上,MAST使MATH遗忘从45/150降至37/150(McNemar p=0.0078),且GSM8K提升0.8个百分点,MATH保留仅下降0.5个百分点。在Qwen3上,MAST保持GSM8K,而全参数遗忘使其崩溃。论文MASTQwen2.5Qwen3推理模型选择性遗忘推荐理由:这篇论文提出了MAST,一种更精准的模型遗忘方法,在Qwen2.5和Qwen3上只遗忘你想忘的,保留数学能力不掉。适合研究模型编辑或推理安全的同学。原文
10:47arXiv: DeepSeek@Haolong Qian, Xianliang Yang, Yinuo ma, Lirong Che, Feng Lu, Ye Guo, Lei Song, Jiang Bian, Chun Yuan论文在Qwen2.5、LLaMA-3和DeepSeek三个系列上发现:用小模型自身生成并通过拒绝采样选取的轨迹,比用更强Oracle模型精炼的高奖励数据,能更有效提升数学推理。Oracle精炼虽修复逻辑,但引入分布偏移,增加小模型适应成本,抵消了逻辑改进的收益。作者提出风格对齐精炼(Style-Aligned Refinement),保留小模型原生轨迹风格同时融入Oracle逻辑修复,降低适应成本并恢复下游效用。该发现挑战了数学推理蒸馏中依赖奖励模型分数选择数据的常规做法。论文Qwen2.5LLaMA-3DeepSeek知识蒸馏推理模型推荐理由:这篇论文揭穿了一个直觉错误:你以为给小白模型喂“学霸笔记”能变强,结果效果还不如它自己瞎写的解题草稿。原因是学霸的思路和它不匹配,硬学反而费劲。原文
10:41arXiv cs.LG@Miso Choi, Seonga Choi, Mincheol Kwon, Woosung Joung, Jinkyu Kim, Jungbeom Lee论文发现,在Vicuna、Qwen2.5、LLaMA2和Mistral等模型家族中,上下文的真实性评分(Truth Scores)在指令微调或多模态适配后高度保留,与其注意头权重继承一致。作者提出TruthProbe软门控策略,通过放大上下文真实头而保留其他头贡献,在HaluEval上提升上下文真实性,并在POPE和CHAIR上减少多模态幻觉。基础LLM的真实头评分有效传递给微调后的LLM和多模态LLM后代。代码已开源。论文TruthProbeVicunaQwen2.5多模态幻觉推荐理由:这篇论文挺有意思,发现模型家族里真实头会继承,搞了个TruthProbe来减少幻觉,效果不错,适合研究模型可解释性和幻觉问题的人看。原文
11:21arXiv cs.AI@Haotao Xie针对古诗鉴赏任务中领域特定数据集稀缺、通用模型忽视诗歌特性的问题,研究团队构建了包含 49,404 条指令-响应对的 CCPoetry-49K 数据集,覆盖术语解释、语义理解和情感推理三个子任务。基于该数据集,通过 LoRA 微调 Qwen2.5-14B 得到 PoetryQwen 模型,在 CCL25-Eval Task 5 基准上达到 0.757 分,相比基线提升 9.7%。该工作为古诗精准翻译与情感理解提供了专用数据集和优化方法,展示了领域微调的有效性。论文古诗理解LoRA微调Qwen2.5CCPoetry-49K领域数据集推荐理由:做古典文学 NLP 或诗歌 AI 应用的团队终于有了专用数据集和微调方案,PoetryQwen 在翻译和情感理解上提升明显,值得直接参考使用。原文
12:07arXiv cs.LG@Xuezhen Xie, Zhiqiang Zhou精选CLP提出了一种新的多Token预测(MTP)加速方法,解决了现有MTP方法中“头-主干竞争”导致的质量下降问题。该方法通过“主干即架构”原则,让主干语言模型头始终生成第一个Token,MTP头只负责后续Token。CLP使用轻量级线性层(4.6K-7.7K参数)预测可安全接受的Token数量,在Qwen2.5模型上实现1.14x-1.29x加速,且质量零损失(重复率<0.02),优于传统门控网络方法。实验表明,较短的预测窗口(k=2)在大模型上可恢复24%的MTP头准确率,为未来加速研究提供了清晰路线图。论文推理加速多Token预测Qwen2.5零损失轻量架构推荐理由:CLP解决了多Token预测加速中质量下降的核心痛点,做LLM推理优化的团队可以直接参考其轻量设计,在保持输出质量的同时获得稳定加速。原文
01:37rohanpaul_ai@rohanpaul_ai研究发现,长上下文AI模型并非被大量错误信息逐渐削弱,而是仅需10%的误导性段落就能造成近58%的性能损失,这种现象被称为“第一滴墨水效应”。误导信息之所以危险,是因为它们与问题高度相关但错误,在注意力机制中会挤占正确答案的空间。在128K token的Qwen2.5实验中,前10%的硬干扰项解释了97%的干扰压力。这意味着过滤文档时,移除坏内容不如缩短整个上下文有效。该研究对构建长上下文AI系统的开发者具有重要警示意义。论文长上下文注意力机制误导信息第一滴墨水效应Qwen2.5推荐理由:做长上下文AI应用或RAG系统的团队,这个发现会颠覆你对上下文管理的认知——不是堆更多文档就能提升效果,少而精才是关键,建议点开看看具体实验数据。原文
09:58arXiv cs.AI@Songyang Gao, Yinghui Xia, Siyi Liu, Hui Xiong精选现有 LLM 生成研究想法的方法多依赖静态文献检索或复杂提示工程,忽略了文献间的结构关系。研究者提出 Graphs of Research (GoR),通过提取每篇种子论文的 2 跳引用邻居,从引用位置、频率、前驱链接和发表时间推导关系,构建论文演化有向无环图 (DAG)。他们从五大 ML/NLP 会议收集数据,微调 Qwen2.5-7B-Instruct-1M 模型,在头对头 LLM 裁判锦标赛中击败 gpt-4o 基线,达到 SOTA。该方法证明了引文演化图作为监督信号的有效性,有望降低自动化科学创新的门槛。论文研究想法生成引文演化图LLM微调自动化科研Qwen2.5推荐理由:做自动化科研或 AI 辅助创新的研究者,可以试试用引文关系图替代静态检索来激发 LLM 的创意,GoR 直接开源了数据和微调方法。原文