AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:预训练模型×
6月23日
12:49
12:49arXiv cs.LG@Tianyi Li, Zhiqiang Shen
现有线性模式连通性方法通常只从一个模型端点优化插值路径,难以扩展到大型Transformer。我们提出新框架,应用功能保持的权重变换对齐等价解,并让两个模型双向学习向共享线性插值路径的变换。双向优化大幅减少插值障碍,在中等参数规模语言模型上实现了WikiText近零损失屏障(首次展示该规模下近无屏障线性连通)。视觉领域ViT-L在插值路径上保持ImageNet top-1准确率超69%,十亿参数LLM只表现出小损失屏障。这些结果表明解决参数对称性能使大预训练Transformer通过简单线性路径连通和合并。
AI模型Linear Mode ConnectivityTransformer模型合并双学习匹配预训练模型

推荐理由:新方法让十亿参数Transformer通过双向学习实现线性合并,损失屏障极低,视觉和语言模型都验证有效。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月25日
11:24
11:24arXiv cs.LG@Lizhang Chen, Jonathan Li, Chen Liang, Ni Lao, Qiang Liu
精选
研究者提出了一种无需训练的循环Transformer方法,通过在推理时对冻结的预训练模型进行轻量级循环包装,无需微调或架构改动即可提升性能。该方法将Transformer块视为ODE的欧拉步,通过阻尼子步替代大步更新,避免了简单重复块导致的性能下降。在7个模型家族(包括密集、稀疏MoE和MLA+MoE)上验证有效,如Qwen3-4B-Instruct在MMLU-Pro上提升2.64个百分点,Qwen3-30B-A3B-Instruct在CommonsenseQA上提升1.14个百分点。该方法为利用现有模型提升推理能力提供了低成本方案。
论文循环Transformer推理优化无需训练预训练模型ODE视角

推荐理由:这项研究让使用冻结模型的团队无需重新训练就能提升推理性能,做模型部署或推理优化的开发者值得关注,可以直接在现有模型上尝试。
原文
5月22日
11:41
11:41arXiv: OpenAI@Alexander Smirnov
精选
最新研究发现,AI文本检测器并非真正学习区分人类与AI写作,而是放大预训练模型中的典型性方向。在RoBERTa-base等架构上,直接投影质心差异即可达到甚至超过微调后的检测性能(AUROC 0.806-0.944)。该方向在非母语英语写作上完全反转(AUROC低至0.06),验证了典型性假说。仅需24个样本的冻结探针即可匹配全微调效果(0.900 vs 0.895)。研究还提出闭式雅可比预测器,可精确操控检测方向,将ELECTRA检测器在1%假阳性率下的真阳性率从0提升至0.904。
论文AI文本检测预训练模型典型性假说RoBERTa检测器评估

推荐理由:这项研究戳破了AI文本检测的底层假设——检测器可能只是在放大预训练模型的偏见而非真正学习区分。做AI安全、内容审核或学术诚信检测的团队,看完会重新评估现有检测方案的有效性。
原文
5月12日
19:11
19:11arXiv cs.AI@Yixuan Yang, Mehak Arora, Ryan Zhang, Baraa Abed, Junseob Kim, Tilendra Choudhary, Md Hassanuzzaman, Kevin Zhu, Ayman Ali, Chengkun Yang, Alasdair Edward Gent, Victor Moas, Rishikesan Kamaleswaran
Clin-JEPA 提出了一种多阶段联合训练框架,将 JEPA(联合嵌入预测)范式扩展到电子健康记录(EHR)数据。该框架通过五阶段预训练课程(预测器预热、联合精调、EMA目标对齐、硬同步和预测器最终化),稳定地共同训练 Qwen3-8B 编码器和 92M 参数潜在轨迹预测器。在 MIMIC-IV ICU 数据上,Clin-JEPA 实现了潜在ℓ₁展开漂移在 48 小时范围内收敛(-15.7%),而基线方法发散(+3% 到 +4951%)。编码器学习到临床可分辨的潜在几何结构(病情恶化患者与稳定患者的潜在距离比基线高 4.83 倍 vs ≤2.62 倍)。单一骨干网络在多任务下游评估中优于强基线,平均 AUROC 在 ICareFM EEP 上达到 0.851,8 个二元风险任务上达到 0.883(分别比基线平均高 0.038 和 0.041)。
论文医疗AI预训练模型EHRJEPA时序预测

推荐理由:该工作首次将 JEPA 范式成功应用于 EHR 轨迹建模,解决了联合训练不稳定和表示坍缩的关键问题,为医疗领域预训练大模型提供了一种高效且无需任务微调的方案。
原文
精选全部日报登录