12:20AK@_akhaliqVISReg是一种新的正则化方法,专用于JEPA(联合嵌入预测架构)训练。它引入方差、不变性和素描三项正则化项。这些项旨在改善自监督学习中的表征质量。论文VISRegJEPA自监督学习正则化推荐理由:有人发了VISReg,一种给JEPA训练用的新正则化技巧,通过方差、不变性和素描来提升表征质量。原文
11:01AI Will@FinanceYF5精选Jayden Teoh提出Next-Latent Prediction(NextLat),一种自监督学习方法。该方法教Transformer预测下一个隐状态而非直接预测token。NextLat使模型形成紧凑的世界模型,在推理和规划任务上表现更好。通过自speculative decoding,推理速度最高提升3.3倍。AI模型NextLatTransformer推理模型自监督学习加速推理推荐理由:Transformer预测隐状态而不是token能加速3.3倍,还能形成世界模型。Jayden Teoh的新框架值得看看。原文
09:56rohanpaul_ai@rohanpaul_ai精选Yann LeCun 团队的新论文揭示了自监督模型 LeJEPA 何时能真正学到隐藏的世界变量。研究发现,只有当这些隐藏变量呈平衡的高斯分布时,LeJEPA 才能可靠地恢复它们。论文从数学上证明,当真实隐藏变量是独立高斯变量且配对视图来自稳定噪声过程时,LeJEPA 的最优解必然能恢复这些变量(至多相差一个旋转或翻转)。这为理解自监督 AI 模型何时是在学习世界结构、而非仅生成恰好有用的特征提供了理论依据。论文自监督学习世界模型LeJEPA高斯分布Yann LeCun推荐理由:这篇论文给自监督学习社区一个清晰的数学答案:什么条件下模型真的在学世界模型。做表征学习或世界模型研究的开发者,看完会对 LeJEPA 的能力边界有更硬核的理解。原文