全部 AI 动态 · AI 热点

6月23日

12:49

12:49

arXiv cs.LG@Tianyi Li, Zhiqiang Shen

现有线性模式连通性方法通常只从一个模型端点优化插值路径，难以扩展到大型Transformer。我们提出新框架，应用功能保持的权重变换对齐等价解，并让两个模型双向学习向共享线性插值路径的变换。双向优化大幅减少插值障碍，在中等参数规模语言模型上实现了WikiText近零损失屏障（首次展示该规模下近无屏障线性连通）。视觉领域ViT-L在插值路径上保持ImageNet top-1准确率超69%，十亿参数LLM只表现出小损失屏障。这些结果表明解决参数对称性能使大预训练Transformer通过简单线性路径连通和合并。

AI模型 Linear Mode Connectivity Transformer 模型合并双学习匹配预训练模型

推荐理由：新方法让十亿参数Transformer通过双向学习实现线性合并，损失屏障极低，视觉和语言模型都验证有效。

10:46

10:46

arXiv cs.LG@Jungyong Son, Jinwook Jung, Sungyong Baik

SiM通过奇异值分解（SVD）为每个任务构建低秩流形，利用测试输入特征在任务流形上的投影残差进行无训练路由。仅需每个任务32个样本的支撑集即可离线预计算流形，合并过程无需额外数据。在计算机视觉和自然语言处理基准上，任务未知推理场景下SiM显著提升合并模型性能，持续缩小与独立专家模型的差距。该方法无需存储完整专家参数，兼容子空间/掩码合并。

论文 SiM 多任务模型合并无训练路由模型合并 SVD

推荐理由：这篇论文提出了SiM方法，不用额外训练就能动态路由多任务模型，只用少量样本预计算，效果逼近独立专家。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？