全部 AI 动态 · AI 热点

AITOP

6月28日

12:20

AK@_akhaliq

VISReg是一种新的正则化方法，专用于JEPA（联合嵌入预测架构）训练。它引入方差、不变性和素描三项正则化项。这些项旨在改善自监督学习中的表征质量。

论文 VISReg JEPA 自监督学习正则化

推荐理由：有人发了VISReg，一种给JEPA训练用的新正则化技巧，通过方差、不变性和素描来提升表征质量。

原文

6月26日

11:01

AI Will@FinanceYF5

精选

Jayden Teoh提出Next-Latent Prediction（NextLat），一种自监督学习方法。该方法教Transformer预测下一个隐状态而非直接预测token。NextLat使模型形成紧凑的世界模型，在推理和规划任务上表现更好。通过自speculative decoding，推理速度最高提升3.3倍。

AI模型 NextLat Transformer 推理模型自监督学习加速推理

推荐理由：Transformer预测隐状态而不是token能加速3.3倍，还能形成世界模型。Jayden Teoh的新框架值得看看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:14

arXiv cs.AI@King Yeung Tsang, Zihao Zhao, Vishal Venkataramani, Haizhou Shi, Zixuan Ke, Semih Yavuz, Shafiq Joty, Hao Wang

多智能体系统（MAS）依赖大语言模型（LLM）进行有效编排，但训练编排器面临监督信号稀缺和计算成本高的问题。本文提出OrchRM，一种自监督框架，通过多智能体执行过程中的中间产物构建胜负对，训练Bradley-Terry奖励模型，无需人工标注。相比依赖昂贵子智能体回滚的现有方法，OrchRM直接在编排层面操作，将训练效率提升10倍（以token使用量计），并将测试时扩展的准确率提升8%。该方法在数学推理、网页问答和多跳推理等多个领域均有效，代码已开源。

论文多智能体系统奖励建模编排优化自监督学习开源/仓库

推荐理由：做多智能体系统编排的团队终于有了一个低成本、高回报的训练方案——OrchRM 省去了人工标注和子智能体回滚，直接提升 8% 准确率，建议做 MAS 的开发者试试这个开源框架。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

10:38

arXiv cs.AI@Jonathan F. Carter, Lionel Tarassenko

精选

该研究提出 Hypnos，一个多模态睡眠基础模型，使用来自 2 万多次夜间多导睡眠监测的 8 种传感模态（如 EEG、ECG、呼吸信号）训练。与现有使用掩码重建或对比学习的方法不同，Hypnos 采用下一词预测作为自监督目标，通过残差向量量化将每种模态离散化为 token 流，并用自回归 RQ-Transformer 并行预测所有模态的下一个 token。在睡眠阶段分类任务中，Hypnos 仅用 1% 的标注数据就达到了强监督基线的性能，还能泛化到日间生理信号，在检测房颤上超越专门的 ECG 基础模型。结果表明，下一词预测是多模态生理信号表征学习的有效且可扩展的自监督目标。

论文基础模型睡眠生理学多模态下一词预测自监督学习

推荐理由：睡眠医学和生理信号分析的研究者终于有了一个无需大量标注数据就能学到通用表征的基础模型——Hypnos 用下一词预测解决了多模态生理数据的学习难题，做睡眠分期或房颤检测的团队可以直接用它生成嵌入，大幅降低标注成本。

原文

6月8日

10:32

arXiv cs.LG@Changkun Guan, El Mehdi Er Raqabi, Mathieu Tanneau, Pascal Van Hentenryck

精选

Benders分解是求解大规模混合整数优化问题的经典框架，但传统方法反复求解相似子问题，收敛慢。本文提出代理Benders分解（Proxy-BD），用自监督的预测-投影-补全机制生成对偶可行解，产生有效的Benders割，保证理论有效性。在大规模设施选址和网络设计问题上，Proxy-BD实现中位最优性差距低于0.5%，加速高达161倍，割数量减少240倍以上。该方法在子问题复杂度高时加速效果更显著，适合大规模分解场景。

论文 Benders分解优化代理大规模优化自监督学习设施选址

推荐理由：做大规模优化或运筹学的团队终于有了加速Benders分解的实用方案——Proxy-BD用代理模型替代重复求解，理论保证不变但速度提升百倍，处理2000x2000规模问题的可以直接试。

原文

6月4日

11:21

arXiv cs.LG@Vasiliki Rizou, Pascal Frossard, Dorina Thanou

精选

多模态数据解耦表示学习能分离共享与独特特征，但现有方法局限于双模态场景。RePercENT 提出自监督框架，通过即插即用架构直接处理预提取嵌入，无需联合预训练，支持任意数量模态。该框架引入联合优化目标同时学习共享与独特成分，并提供理论最优性保证。实验表明，RePercENT 在多种模态和任务中成功恢复解耦成分，性能持平且计算复杂度显著降低。这为多模态AI系统（如自动驾驶、医疗诊断）提供了可扩展的基础方案。

论文多模态学习解耦表示学习自监督学习即插即用架构可扩展性

推荐理由：多模态数据解耦是AI理解复杂场景的关键，但双模态瓶颈长期未解。做多模态学习、跨模态推理的团队可以直接用RePercENT的即插即用架构，无需重新训练基础模型，值得关注。

原文

10:41

arXiv cs.AI@Elouan Gardès, Seung Eun Yi, Kartik Ahuja, Théo Moutakanni, Huy V. Vo, Piotr Bojanowski, Wolfgang M. Pernice, Loïc Landrieu, Camille Couprie

论文提出一种无标签方法 FINO，利用元数据（如拍摄条件、地理位置等）以自监督方式将通用视觉基础模型适配到专业科学领域。该方法结合自监督学习与灵活的元数据引导，能处理离散和连续元数据，保留有用信息并抑制噪声。在亚细胞荧光显微镜、地球观测、野生动物监测和医学影像等多个领域，FINO 超越了标准无监督域适应和全监督适应方法，甚至超过了高度专业化的领域特定模型。该方法无需任务标签进行骨干网络适配，仅需轻量级分类头进行监督，解决了科学领域标签稀缺和模型泛化性下降的问题。

论文视觉基础模型无监督域适应元数据科学图像自监督学习

推荐理由：科学图像分析团队终于有了不用手动标注就能适配大模型的方法——FINO 用已有的元数据就能提升效果，做显微镜、卫星或医学影像的开发者可以直接试试。

原文

6月1日

10:18

arXiv cs.LG@Ulrich Prestel, Stefan Andreas Baumann, Nick Stracke, Björn Ommer

精选

RayDer 提出了一种统一的、前馈式 Transformer 架构，将相机估计、场景重建和渲染整合到一个主干网络中，将自监督新视角合成（NVS）转化为一个定义良好的单模型缩放问题。通过引入最小动态状态作为干扰因素，它吸收了视频中的时变内容，从而能够在无约束的真实世界视频上稳定训练。RayDer 将静态场景 NVS 作为目标任务，动态内容仅作为可扩展的监督信号，而非像动态场景（4D）NVS 那样进行重建。实验表明，RayDer 在数据和计算量上表现出清晰的幂律缩放行为，并在多个基准测试中取得了与有监督方法相媲美的零样本开放集性能。

论文新视角合成自监督学习 Transformer 场景重建 RayDer

推荐理由：RayDer 解决了自监督 NVS 难以规模化的问题，做 3D 视觉和场景重建的研究者可以关注其简洁的缩放规律和零样本能力，值得在真实视频数据上试试。

原文

10:13

arXiv cs.LG@Kian Kenyon-Dean, Alina Selega, Ihab Bendidi, Jordan M. Sorokin, Luca Bertinetto, David Errington, Hayley Donnella, Oren Kraus

RNA测序数据在药物发现中有广泛应用，但现有转录组基础模型因技术噪声和批次效应表现不佳，甚至不如线性基线。研究者提出新自监督模型TxFM，采用掩码自编码方法处理多样RNA-seq计数数据，并通过消融实验确定关键架构配置。他们构建了公开训练语料DiverseRNA-1.4M，训练出的TxFM在基因表示上优于规模大100倍以上的图谱级模型。结果表明，结合精心设计的模型架构和训练数据，归纳式自监督学习是转录组表示学习的可行方法。

论文基因表达自监督学习掩码自编码转录组 TxFM

推荐理由：TxFM解决了转录组基础模型性能不佳的痛点，做药物发现和生物信息学的团队可以试试这个轻量级方案，效果优于大模型。

原文

5月29日

09:56

rohanpaul_ai@rohanpaul_ai

精选

Yann LeCun 团队的新论文揭示了自监督模型 LeJEPA 何时能真正学到隐藏的世界变量。研究发现，只有当这些隐藏变量呈平衡的高斯分布时，LeJEPA 才能可靠地恢复它们。论文从数学上证明，当真实隐藏变量是独立高斯变量且配对视图来自稳定噪声过程时，LeJEPA 的最优解必然能恢复这些变量（至多相差一个旋转或翻转）。这为理解自监督 AI 模型何时是在学习世界结构、而非仅生成恰好有用的特征提供了理论依据。

论文自监督学习世界模型 LeJEPA 高斯分布 Yann LeCun

推荐理由：这篇论文给自监督学习社区一个清晰的数学答案：什么条件下模型真的在学世界模型。做表征学习或世界模型研究的开发者，看完会对 LeJEPA 的能力边界有更硬核的理解。

原文

5月28日

11:27

arXiv cs.AI@Abhilash Durgam, Nyle Siddiqui, Jeffrey A. Chan-Santiago, Qiushi Fu, Elakkat D. Gireesh, Mubarak Shah

精选

CaMBRAIN 是首个基于 Mamba 的因果状态空间模型，专为脑电图（EEG）信号实时推理设计。现有深度学习模型依赖注意力机制，序列长度增加时计算量呈二次增长，且需滑动窗口处理，无法理解全局信号。CaMBRAIN 利用因果状态空间模型保持线性复杂度，并引入多阶段自监督训练，增强长程记忆能力。在三个 EEG 数据集上，CaMBRAIN 达到最先进性能，吞吐量比现有模型高 10 倍以上，首次实现变长 EEG 信号的连续推理。

论文 EEG 状态空间模型 Mamba 实时推理自监督学习

推荐理由：做脑机接口或神经信号处理的团队终于有了能实时处理长序列 EEG 的工具——CaMBRAIN 解决了注意力机制的计算瓶颈，吞吐量提升 10 倍，做实时监测或临床诊断的开发者可以直接用。

原文

5月27日

10:49

arXiv cs.LG@Nithesh Chandher Karthikeyan, Jonas Unger, Gabriel Eilertsen

精选

本文提出一种基于预训练自监督模型表示的条件扩散模型，用于可控图像生成。传统方法依赖文本提示或语义图等条件机制，需要大量标注数据。该工作通过自监督表示作为条件，不仅提升了无条件图像生成的质量，还提供了一个可操控的表示空间。研究者通过识别变化方向探索该条件空间，展示了平滑性和解耦性等有前景的特性。这项工作为减少对标注数据的依赖、实现更灵活的图像生成控制提供了新思路。

论文扩散模型可控图像生成自监督学习表示条件解耦控制

推荐理由：做图像生成和编辑的研究者可以关注——自监督表示条件化方法有望减少对标注数据的依赖，且提供更平滑、解耦的控制空间，值得深入探索。

原文

5月20日

11:28

arXiv cs.LG@Robert Jenkinson Alvarez

精选

论文指出JEPA（联合嵌入预测架构）通常将单视图嵌入正则化为各向同性高斯分布，这隐含地引入了欧几里得对称性，但并非无害。当下游几何结构已知时，最优协方差应为哈密顿能量预算下的(c/d)H^{-1}，各向同性会导致可量化的性能损失。当下游几何未知时，任何固定边际目标都可能与某些结构严重不匹配。作者提出HamJEPA，将每个视图编码为相空间状态(q,p)，并用可学习的哈密顿跳蛙映射预测视图间转换，非各向同性尺度和谱底防止崩溃。在CIFAR-100上，HamJEPA在30轮时比SIGReg提升+4.89 kNN@20和+3.52线性探针点，80轮时提升+6.45 kNN@20和+10.64线性探针点。在ImageNet-100上，45轮时提升+4.82 kNN@20和+7.52线性探针点。

论文 JEPA 表示学习哈密顿几何自监督学习各向同性

推荐理由：这篇论文戳破了JEPA中“各向同性正则化无害”的默认假设，做自监督表示学习的团队值得关注——它用哈密顿几何给出了更优的耦合方式，实验提升显著且理论扎实。

原文