10:41arXiv cs.LG@Juliana Li, Diya Sreedhar论文发现小型语言模型在预训练中学会的代词-性别规则(准确率0.94)会在3500步后自然消失,尽管训练数据仍包含该规则。这种未在损失曲线上反映的反转现象称为natural ungrokking。规则存留由支持频率预测:在2个语料、3个预算、3个种子的16次未干预运行中,支持频率决定规则命运。该动态出现在公开Pythia检查点中,遗忘顺序按模型规模排序。控制不对称:反转支持证据可破坏规则,但即使注入450倍支持也无法恢复。论文Natural UngrokkingPythia预训练规则学习不对称控制推荐理由:这篇论文发现了模型训练中规则自然遗忘的规律,并且能预测和控制——破坏容易恢复难,对理解LLM行为很有启发。原文
09:40arXiv cs.AI@Liangkai Hang, Junjie Yao, Zhiyu Li, Feiyu Xiong, Hongkang Yang, Zhi-Qin John Xu73°论文发现缩小参数初始化尺度能持续改善大语言模型的预训练效果,在推理密集型任务上提升最为显著,同时识别出两种常见训练设置会抑制该优势。研究揭示了初始化尺度的关键平衡点,并发现小初始化驱动参数先凝聚为低复杂度结构再扩展为丰富表示。基于此提出γ初始化规则——将初始化范围作为可调旋钮,默认使用小初始化几乎不增加成本即可改善训练和推理。论文初始化大语言模型推理预训练压缩推荐理由:发现一个几乎零成本的训练技巧:缩小初始化尺度能大幅提升大模型推理能力。原文
11:04arXiv cs.LG@Kaiyue Wen, Xingyu Dang, Kaifeng Lyu, Tengyu Ma, Percy Liang论文提出Hyperball,一种简单优化器包装器,固定权重矩阵及其更新量的Frobenius范数,解决Muon等优化器在大模型(如1.2B参数Qwen3模型)上相比AdamW加速效果衰减的问题。实验表明,Muon+Hyperball实现20-30% token等效加速,并改善学习率在宽度和深度上的迁移。该方法受理论启发:权重衰减导致平衡权重范数仅依赖于超参数,进而决定角度学习率。论文HyperballMuonQwen3优化器预训练推荐理由:Muon在大模型上加速效果缩水?Hyperball通过固定矩阵范数,让Muon在1.2B Qwen3上又快了20-30%,还更好调参。原文
11:02arXiv cs.AI@Ria Doshi, Tian Gao, Annie Chen, Chelsea Finn, Jeannette Bohg多机器人协作在移动场景中面临扩展性差和部分可观测性问题。CHORUS框架利用预训练视觉-语言-动作(VLA)模型的视觉运动先验,使每个机器人仅依赖自身局部观测和身份提示即可独立运行,无需推理时通信或显式对齐。在移动测量、图书交接和洗衣篮搬运等真实实验中,CHORUS相比从零训练的分散模型提升64%性能,对队友行为的反应性提高40%,并超越集中式基线。该工作表明,共享VLA骨干网络足以实现去中心化多机器人协作,无需为每个机器人单独训练策略。论文多机器人协作VLA模型去中心化机器人预训练推荐理由:多机器人协作的扩展性难题被VLA模型破解了——做机器人集群部署的团队可以直接参考CHORUS的零通信方案,省去复杂的对齐和通信模块。原文
12:14arXiv cs.AI@Akarsh Kumar, Phillip Isola精选论文提出Supervised Memory Training (SMT),一种训练非线性RNN的新方法。SMT通过将RNN训练转化为一步记忆转换标签的监督学习,完全绕过了传统的循环信用分配。它利用基于Transformer的编码器从预测状态目标中获取记忆标签,只保留预测未来所需的过去信息。SMT实现了时间并行训练,任意两个token之间的梯度路径长度稳定为O(1),无需展开RNN。实验表明,SMT在语言建模和像素序列建模等任务上优于BPTT,能更好地捕捉长程依赖关系。论文RNN预训练长程依赖并行训练监督学习推荐理由:SMT解决了RNN训练中并行性差和长程依赖难学的问题,做序列建模或时间序列分析的开发者可以直接用这个方法替代BPTT,训练效率会大幅提升。原文
12:08arXiv cs.AI@Senmiao Wang, Tiantian Fang, Haoran Zhang, Yushun Zhang, Kunxiang Zhao, Alex Schwing, Ruoyu Sun精选研究人员提出了一种名为PC Layer(Preconditioning Layer)的权重参数化方法,通过在训练过程中对权重矩阵进行低阶多项式预处理,稳定其奇异值谱,从而改善大型语言模型(LLM)的预训练效果。该方法与AdamW和Muon优化器兼容,在Llama-1B模型上验证了其优于标准Transformer架构。训练后,预处理权重可合并回原始架构,不增加推理开销。理论证明,均匀限制每层奇异值能确保梯度下降在深层线性网络中收敛到全局最小值。代码已开源。论文预训练权重预处理奇异值谱Llama优化器推荐理由:这项研究解决了LLM训练中权重矩阵病态条件数导致的收敛不稳定问题,做预训练优化的团队可以直接在Llama等模型上尝试,无需额外推理成本。原文
10:23arXiv cs.AI@Bishwas Mandal, Shmuel Berman, Akshay Vegesna, Samip Dahal随着计算资源增长快于高质量文本供给,多轮训练成为新常态,但单模型在几轮后即饱和。论文提出“超时代预训练”(q0),将多轮预算转化为多样模型群体并聚合预测,达到比单模型更低的验证损失。q0包含三个核心原语:反相关学习率与权重衰减的循环调度、链式蒸馏、以及基于学习先验的模型选择与加权。在1.8B参数模型、100M FineWeb tokens上,q0仅用约56轮就匹配了256轮强集成基线,效率提升约4.6倍,在Slowrun设置下累积数据效率达12.9倍。该方法还给出了不同预算下的最优分配策略,从单轮到最大预算均可适用。论文预训练数据效率模型集成蒸馏q0推荐理由:多轮训练效率瓶颈是当前大模型预训练的痛点,q0用群体模型替代单模型精炼,做预训练或数据效率优化的研究者可以直接复现并应用到自己的训练流程中。原文
11:18arXiv cs.LG@Kazuto Fukuchi, Ryuichiro Hataya, Kota Matsui精选该论文提出了复杂度最小化框架,用于理论解释预训练数据规模增大如何降低下游样本复杂度。通过端到端分析,证明该框架能捕捉元学习中的缩放行为,即少样本适应误差率随元训练数据量增加而改善。实验表明,将复杂度正则化融入现有元学习方法能持续提升下游样本效率。论文元学习预训练复杂度最小化数据规模定律理论分析推荐理由:这篇论文为预训练数据规模定律提供了首个理论证明,做元学习或预训练研究的学者值得关注,可以直接参考其复杂度正则化方法改进现有模型。原文
11:22arXiv cs.LG@Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang精选研究者提出Complete-muE框架,解决了从密集FFN到混合专家(MoE)模型架构的超参数迁移问题。现有方法如μP和SDE无法处理MoE中专家数量变化带来的架构和每个专家token数同时改变的问题。Complete-muE通过双桥系统实现迁移:桥I利用激活宽度μP和归一化路由器尺度映射密集FFN到密集MoE;桥II通过激活专家缩放映射密集MoE到稀疏MoE,并处理一阶SDE学习率/权重衰减校正。实验表明,在语言模型和扩散模型预训练中,该框架能使超参数在多种MoE配置下保持稳定,实现“一次调参,迁移所有”的效果,显著加速MoE模型收敛。论文MoE模型超参数迁移缩放法则Transformer预训练推荐理由:做大规模MoE模型训练的团队终于有了可靠的超参数迁移方案——不用为每个专家配置重新调参,直接复用密集模型的超参数即可,建议做预训练优化的点开看看。原文
11:10arXiv cs.AI@Pilchen Hippolyte, Fabre Romain, Signe Talla Franck, Perez Patrick, Grave Edouard精选72°该研究探讨了预训练数据顺序对大语言模型获取时间敏感事实知识的影响。作者构建了包含7000多个时间锚定问题的基准测试,并训练了6B参数模型,比较了按时间顺序预训练与标准随机打乱预训练的效果。结果显示,按时间顺序训练的模型在通用语言理解和常识方面与随机基线相当,但事实知识更新、更精确。随机预训练模型在旧数据上表现更好,可能是因为事实重复更多。研究为LLM持续学习提供了基础,并开源了代码、检查点和数据集。论文大语言模型预训练数据时序性事实知识持续学习推荐理由:这项研究揭示了数据顺序对模型知识时效性的关键影响,做LLM预训练或持续学习的团队值得关注,可以直接参考其基准和训练方法。原文
11:30arXiv cs.LG@Valentina Njaradi, Clémentine Dominé, Rachel Swanson, Marco Mondelli, Andrew Saxe精选该论文通过高维分析框架,研究了预训练表征维度对下游线性探测泛化性能的影响。作者将预训练建模为无标签数据的主成分分析,下游任务建模为有标签数据的线性回归,并推导出训练误差和泛化误差的精确表达式。研究发现,当预训练数据充足但下游数据稀缺时,最大压缩的表征最优;而当预训练数据有限时,高维表征泛化更好。论文还量化了无标签数据与有标签数据之间的替代关系,并在自编码器和预训练大语言模型中观察到类似现象。论文预训练表征学习泛化理论线性探测高维分析推荐理由:这篇论文为预训练表征的维度选择提供了理论指导,做迁移学习或模型压缩的研究者可以直接参考其结论来优化训练策略。原文
11:17arXiv cs.LG@Zhen Xiong, Shang-Ling Hsu, Cyrus Shahabi精选TrajTok 是一种新型轨迹编码器,通过自适应多分辨率六边形网格分词和掩码标记预训练,从原始GPS轨迹中学习可迁移的轨迹表征。它解决了传统网格分词中细粒度导致稀疏、粗粒度混淆运动模式的问题。TrajTok 使用分解式Transformer编码器,分别处理几何和运动学特征,并通过交叉注意力融合。在Porto数据集上,冻结的TrajTok编码器配合轻量任务适配器,在轨迹相似性搜索、分类、预计到达时间等任务上超越多个专用方法。这表明多分辨率空间分词与掩码预训练是构建通用轨迹基础模型的有前景方向。论文轨迹表征空间分词Transformer预训练GPS数据推荐理由:做轨迹分析或时空数据挖掘的团队,TrajTok 提供了一种无需为每个任务单独训练模型的通用方案,值得关注其预训练权重和代码开源。原文
10:24arXiv cs.AI@Yuze Zhao, Junpeng Fang, Lu Yu, Zhenya Huang, Kai Zhang, Qing Cui, Qi Liu, Jun Zhou, Enhong Chen精选72°这篇论文通过控制预训练实验,重新审视了代码训练对语言模型推理能力的影响。研究发现,纯代码主要提升编程能力,而非通用推理能力,甚至与数学等知识密集型任务存在竞争关系。真正提升数学推理的是跨领域的结构化推理信号,如代码-文本和数学-文本混合数据。在固定数学预算下,增加结构化数学样本密度能显著提升复杂数学推理,同时保持编程性能。分析还显示,数据组成效应反映在专家激活模式中,为跨领域的竞争与协同提供了机制层面的证据。论文推理模型预训练数学推理代码训练数据策略推荐理由:这篇论文戳破了“代码训练提升通用推理”的迷思,做预训练数据策略的团队值得细看——它指明了如何通过结构化推理信号精准优化数学能力,而非盲目堆代码。原文