全部 AI 动态 · AI 热点

6月23日

12:49

arXiv cs.LG@Tianyi Li, Zhiqiang Shen

现有线性模式连通性方法通常只从一个模型端点优化插值路径，难以扩展到大型Transformer。我们提出新框架，应用功能保持的权重变换对齐等价解，并让两个模型双向学习向共享线性插值路径的变换。双向优化大幅减少插值障碍，在中等参数规模语言模型上实现了WikiText近零损失屏障（首次展示该规模下近无屏障线性连通）。视觉领域ViT-L在插值路径上保持ImageNet top-1准确率超69%，十亿参数LLM只表现出小损失屏障。这些结果表明解决参数对称性能使大预训练Transformer通过简单线性路径连通和合并。

AI模型 Linear Mode Connectivity Transformer 模型合并双学习匹配预训练模型

推荐理由：新方法让十亿参数Transformer通过双向学习实现线性合并，损失屏障极低，视觉和语言模型都验证有效。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月25日

11:24

arXiv cs.LG@Lizhang Chen, Jonathan Li, Chen Liang, Ni Lao, Qiang Liu

精选

研究者提出了一种无需训练的循环Transformer方法，通过在推理时对冻结的预训练模型进行轻量级循环包装，无需微调或架构改动即可提升性能。该方法将Transformer块视为ODE的欧拉步，通过阻尼子步替代大步更新，避免了简单重复块导致的性能下降。在7个模型家族（包括密集、稀疏MoE和MLA+MoE）上验证有效，如Qwen3-4B-Instruct在MMLU-Pro上提升2.64个百分点，Qwen3-30B-A3B-Instruct在CommonsenseQA上提升1.14个百分点。该方法为利用现有模型提升推理能力提供了低成本方案。

论文循环Transformer 推理优化无需训练预训练模型 ODE视角

推荐理由：这项研究让使用冻结模型的团队无需重新训练就能提升推理性能，做模型部署或推理优化的开发者值得关注，可以直接在现有模型上尝试。

原文

5月22日

11:41

arXiv: OpenAI@Alexander Smirnov

精选

论文 AI文本检测预训练模型典型性假说 RoBERTa 检测器评估

推荐理由：这项研究戳破了AI文本检测的底层假设——检测器可能只是在放大预训练模型的偏见而非真正学习区分。做AI安全、内容审核或学术诚信检测的团队，看完会重新评估现有检测方案的有效性。

原文

5月12日

19:11

arXiv cs.AI@Yixuan Yang, Mehak Arora, Ryan Zhang, Baraa Abed, Junseob Kim, Tilendra Choudhary, Md Hassanuzzaman, Kevin Zhu, Ayman Ali, Chengkun Yang, Alasdair Edward Gent, Victor Moas, Rishikesan Kamaleswaran

Clin-JEPA 提出了一种多阶段联合训练框架，将 JEPA（联合嵌入预测）范式扩展到电子健康记录（EHR）数据。该框架通过五阶段预训练课程（预测器预热、联合精调、EMA目标对齐、硬同步和预测器最终化），稳定地共同训练 Qwen3-8B 编码器和 92M 参数潜在轨迹预测器。在 MIMIC-IV ICU 数据上，Clin-JEPA 实现了潜在ℓ₁展开漂移在 48 小时范围内收敛（-15.7%），而基线方法发散（+3% 到 +4951%）。编码器学习到临床可分辨的潜在几何结构（病情恶化患者与稳定患者的潜在距离比基线高 4.83 倍 vs ≤2.62 倍）。单一骨干网络在多任务下游评估中优于强基线，平均 AUROC 在 ICareFM EEP 上达到 0.851，8 个二元风险任务上达到 0.883（分别比基线平均高 0.038 和 0.041）。

论文医疗AI 预训练模型 EHR JEPA 时序预测

推荐理由：该工作首次将 JEPA 范式成功应用于 EHR 轨迹建模，解决了联合训练不稳定和表示坍缩的关键问题，为医疗领域预训练大模型提供了一种高效且无需任务微调的方案。

原文