X·KOLX:arXiv cs.LG (@Nico Pelleriti, Sree Harsha Nelaturu, Zhanke Zhou, Zongze Li, Max Zimmer, Bo Han, Sebastian Pokutta)
最新研究指出,将 LLM 与进化搜索结合的编码智能体在数学发现和算法设计上表现强劲,但进步可能源于多种机制:新算法结构、调整现有策略、重组模型内部知识或过拟合评估器。为区分这些机制,研究者推出了 EvoTrace 数据集,涵盖四种进化框架、推理与非推理模型及 16 个任务。他们开发了 EvoReplay 方法,通过重放分析高分解背后的局部搜索状态,并标注了九种编辑类型。结果发现,大部分得分提升来自少数编辑类型,且约 30% 的代码行是重复引入的已删除行,表明基准进步可能并非真正的新算法结构。
X·KOLX:arXiv cs.AI (@Vasundra Srinivasan)
该论文首次将LLM输出与确定性系统之间的边界定义为“随机-确定性边界”(SDB),并视其为生产级智能体运行时的核心原语。作者围绕SDB提出了运行时设计的三个关注点(协调、状态、控制),并给出了六种运行时模式(如层次委派、散聚+Saga、事件驱动序列等),每种模式都追溯了其分布式系统根源并分析了当工作节点变为随机模型时的变化。论文贡献了一套五步模式选择方法论、一个将生产故障映射到模式弱点的诊断流程,以及一种名为“回放发散”的故障模式。通过可靠性分解,论文论证了随着模型方差降低,模式选择和SDB强度对长期可靠性的影响越来越大。
X·KOLX:arXiv cs.LG (@Yuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang)
投机解码通过草稿-验证范式加速大模型推理,但现有方法构建的庞大草稿树带来严重的显存带宽和计算开销。动态深度剪枝虽能减少延迟,却会丢弃潜在有效候选,导致接受率无法达到稠密树的上限。本文提出Graft框架,将剪枝与检索作为相互增强的操作:剪枝释放计算预算,检索补偿剪枝导致的覆盖损失并恢复接受长度。Graft采用“先剪后接”机制,以近乎零开销将高预测性的检索令牌填入剪枝空位,无需训练且无损。在短上下文、长上下文及大规模模型(如Qwen3-235B)上,Graft实现了最高5.41倍加速,平均加速比EAGLE-3提升21.8%,并初步探索了在非自回归草稿范式中的应用。
X·KOLX:arXiv cs.LG (@Thien Le, Melanie Weber)
本文研究了在组合优化任务中,如何将大型模型的知识蒸馏到更小、更高效的模型。作者假设目标模型是图神经网络,其架构与任务的动态规划算法对齐。基于决策树蒸馏的最新理论分析,论文证明了当源模型足够丰富(通过线性表示假设形式化)时,蒸馏问题可以在动态规划转移函数的复杂度参数内高效解决。该工作为算法对齐框架下的成功蒸馏提供了严格充分条件。
X·KOLX:arXiv cs.LG (@Valentina Njaradi, Clémentine Dominé, Rachel Swanson, Marco Mondelli, Andrew Saxe)
该论文通过高维分析框架,研究了预训练表征维度对下游线性探测泛化性能的影响。作者将预训练建模为无标签数据的主成分分析,下游任务建模为有标签数据的线性回归,并推导出训练误差和泛化误差的精确表达式。研究发现,当预训练数据充足但下游数据稀缺时,最大压缩的表征最优;而当预训练数据有限时,高维表征泛化更好。论文还量化了无标签数据与有标签数据之间的替代关系,并在自编码器和预训练大语言模型中观察到类似现象。