X·KOLX:arXiv: DeepSeek (@Yu Yu, Zhihong Sun, Jia Li, Yao Wan, Chuanyi Li, Hongyu Zhang, Ruyun Wang, Tao Huang, Zhi Jin, Ge Li, Chen Lyu)
大型语言模型生成的代码虽语法正确,但运行速度通常远慢于人类优化代码。现有方法通过后迭代优化或微调模型来提升效率,但未能显式编码高效代码的结构模式。为此,研究者提出EffiSkel框架,通过三种互补策略提取并学习效率骨架(抽象的可复用结构模式),并采用多任务学习联合优化代码生成与骨架预测。实验表明,在Mercury基准上,基于DeepSeek-Coder (7B)的EffiSkel相比EffiCoder和CodeDPO,效率比分别提升11.11%和3.71%,平均加速比分别提升0.36和0.22。该工作为提升LLM生成代码的运行时性能提供了新思路。
X·KOLX:arXiv: DeepSeek (@Xing Yue, Linjuan Wu, Daoxin Zhang, Yongliang Shen, Weiming Lu)
针对开放域奖励建模中缺乏可验证答案、传统基于评分标准的方法生成僵化且增加推理开销的问题,研究者提出 Eval-Skill 方法。该方法通过探索引导,仅用每个领域 100 个案例,分两阶段(工作流生成与原则生成)合成可复用的领域级评估技能,直接注入判断模型上下文。在 RewardBench 2 上,Eval-Skill 显著提升多种基座模型表现,如 Qwen3-8B 提升 13.44%,DeepSeek-V4-Flash 提升 18.51%。实验还分析了扩展性、泛化性和迁移性,表明紧凑评估技能为基于 LLM 的评估提供了高效新范式。代码已开源。
X·KOLX:arXiv cs.AI (@Yuxiang Chen, Jun Wang)
一项新研究对DeepSeek-R1-0120模型与人类在AIME 2025数学竞赛30道题上的推理过程进行了全面比较,标注了10247个推理步骤。研究发现,DeepSeek-R1的推理存在“拓扑模仿”现象:它频繁进行浅层验证和局部循环,缺乏人类推理中紧凑的分析与演绎交替结构。然而,成功的推理轨迹显示出稳定的分支和回溯使用,而失败的轨迹则过度或不足使用探索性动作。反思只有在演绎推理中才有效,陷入分析循环的反思往往忽略全局逻辑错误。研究建议改进评估和训练,包括测量跨轨迹稳定性、惩罚“空转”轨迹、鼓励深层逻辑修正。
X·KOLX:arXiv cs.LG (@Simon Schug)
该研究提出了一种名为Sgatlin(稀疏门控线性神经元)的新型网络结构,通过将每个专家缩小为单个神经元并移除非线性激活函数,在保持稀疏性的同时提升了计算效率。在等计算量对比中,用Sgatlin替换Transformer的前馈层可改善语言模型的困惑度。此外,稀疏性和线性结构使得模型更易解释,无需额外训练即可分析前馈电路,发现其形成语义聚类并参与事实回忆。这项工作为构建计算高效且可解释的Transformer前馈层提供了新思路。
X·KOLX:arXiv cs.AI (@Chuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu)
Socratic-SWE 是一种新型闭环自我进化框架,它利用 LLM 驱动的软件工程智能体的历史解决追踪来生成训练信号。与传统的固定突变或漏洞注入方法不同,该框架将追踪提炼为结构化技能,总结重复失败和有效修复模式,并指导生成针对性的修复任务。通过执行验证和求解器梯度对齐奖励筛选任务,Socratic-SWE 在 SWE-bench Verified 等基准测试上经过三次迭代达到 50.40% 的准确率,持续超越同等计算预算下的自我进化基线。这表明解决追踪可作为可扩展的自我进化基础,为提升编程智能体能力提供了新路径。