自监督学习

§ 01综述

自监督学习（SSL）近期在多个前沿领域取得了显著进展，其核心思想——从数据自身结构构造监督信号——正被推广到更复杂的应用场景中。

在基础模型层面，研究者继续探索SSL在表征学习中的潜力。LeCun等人的新论文（LeJEPA）通过引入高斯结构分析，揭示了自监督世界模型学习的必要条件，为理解SSL的机制提供了新视角（LeCun新论文：LeJEPA何时真正学到世界模型？高斯结构是关键）。同时，RePercENT提出了一个可扩展的解耦表示学习框架，突破了双模态限制，实现了对多模态数据的解耦表征（RePercENT：突破双模态限制的可扩展解耦表示学习框架）。

在特定领域应用方面，SSL正加速赋能生命科学。TxFM采用掩码自编码方法提升基因表达表示学习，展示了自监督预训练在转录组学中的有效性（TxFM：掩码自编码方法提升基因表达表示学习）。Hypnos则通过下一词预测任务，从睡眠生理数据中学习通用表征，为睡眠研究提供了新的自监督范式（Hypnos：用下一词预测学习睡眠生理学通用表征）。此外，CaMBRAIN首次将因果状态空间模型与自监督框架结合，实现了实时连续EEG推理（CaMBRAIN：首个因果状态空间模型实现实时连续EEG推理）。

在计算视觉和优化领域，SSL也展现出跨场景的适应性。RayDer从真实世界视频实现可扩展自监督新视角合成，无需3D监督（RayDer：从真实世界视频实现可扩展自监督新视角合成）。FINO则利用元数据适配视觉基础模型到科学领域，无需标注（FINO：无需标签，用元数据适配视觉基础模型到科学领域）。在运筹优化中，Proxy-BD将自监督思想引入Benders分解，通过代理优化替代子问题求解（Proxy-BD：用代理优化替代子问题求解，加速Benders分解）。

当前焦点围绕两个方向：一是自监督学习的内在机制，尤其是世界模型表征的条件；二是向医学、生理等数据稀缺领域的拓展。未来值得关注SSL在因果表征和实时系统中的应用潜力。

§ 02相关报道10 条在档

§ 03邻近话题