11:07arXiv cs.AI@Anay Mehrotra, Phuc Tran, Van H. Vu, Manolis Zampetakis该研究提出了一种新的矩阵补全方法,用于估计异质性治疗效果(即干预对每个个体的不同影响),而非仅平均效果。在面板数据中,数据被表示为所有单元-时间治疗效果的矩阵,问题转化为矩阵补全。现有方法仅能提供平均治疗效果的保证,而该研究给出了一种计算高效的估计器,在未知倾向性和标准低秩假设下,实现了行方向上的ℓ2误差为Õ(√(1/n + n/m²))。技术上,该分析首次建立了低秩近似的行方向ℓ2扰动界,补充了现有谱、Frobenius和逐元素扰动理论。论文因果推断矩阵补全异质性治疗效果低秩近似面板数据推荐理由:做因果推断或面板数据分析的研究者值得关注——这项研究解决了异质性治疗效果估计中行级误差保证的难题,提供了更精确的理论工具,可以直接用于改进现有估计方法。原文
12:09arXiv cs.LG@Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng精选76°研究发现强化学习(RLVR)训练中模型权重的变化轨迹是低秩且高度可预测的,大部分性能提升来自秩-1近似。基于此,研究者提出RELEX方法,仅需观察少量训练步数(如50步),通过线性回归外推未来检查点(如1000步),即可匹配甚至超越完整RLVR训练的性能。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上验证,RELEX仅需15%的训练步数即可达到同等效果,且能外推至10-20倍于观察窗口。该方法无需额外学习模型,通过丢弃随机优化噪声实现去噪效果,从而提升外推性能。论文强化学习推理模型低秩近似参数外推Qwen推荐理由:RLVR训练成本高昂,RELEX用极低成本实现同等推理提升,做LLM推理优化的团队可以直接用代码复现,值得一试。原文