09:31
arXiv: DeepSeek@Siyue Chen, Yifu Guo, Yuquan Lu, Zishan Xu, Jiaye Lin, Jianbo Lin, Siyu Zhang, Cheng Yang, Junxin Li, Yujia Li, Yu Huo, Ruixuan Wang 该论文提出了LLM代码推理的内部生命周期概念:模型先在早期层中酝酿答案,使其线性可解,然后在后期层分化为四种解析结果——已解析、过度处理、错误解析、未解析。研究对Qwen、Llama、DeepSeek三个架构的16个模型进行了6类代码推理任务的层析探针和上下文剥离解码(CSD)实验。结果显示已解析平均仅41.5%,且函数调用任务中,调用深度从1层增至3层时已解析率从61.1%骤降至2.5%。所有模型的酝酿持续时长稳定在24%-42%,但解析成功率随模型能力和规模变化。
推荐理由:这篇论文用层析探针找到了LLM做代码推理时“酝酿”到“解析”的秘密,发现即便准确率相近,内部失败模式也截然不同,值得想理解推理本质的人读。