论文精选

CLM 绕路法提升编码器领域适配:ModernBERT 生物医学任务 +2.8pp

A Causal Language Modeling Detour Improves Encoder Continued Pretraining

精选理由

做 NLP 领域适配的团队终于有了比纯 MLM 更优的预训练策略——CLM 绕路法简单有效,在生物医学任务上直接涨点,建议做领域编码器的开发者试试这个两阶段方案。

AI 摘要

论文提出一种编码器领域适配新方法:先用因果语言建模(CLM)训练,再切换回掩码语言建模(MLM)微调。在 ModernBERT 上测试,该方法在 8 个法语和 11 个英语生物医学任务上,相比纯 MLM 基线提升 0.3-2.8 个百分点。研究发现 CLM 的密集监督主要影响低层 Transformer 层(0-7),冻结低层会消除收益,而冻结中层则保留收益。这种表征变化在后续 MLM 阶段持续存在,且随模型规模扩大而增强。团队发布了 ModernCamemBERT-bio 和 ModernBERT-bio 作为生物医学编码器新基准。

AI 翻译 · 中文

论文提出一种编码器领域适配新方法:先用因果语言建模(CLM)训练,再切换回掩码语言建模(MLM)微调。在 ModernBERT 上测试,该方法在 8 个法语和 11 个英语生物医学任务上,相比纯 MLM 基线提升 0.3-2.8 个百分点。研究发现 CLM 的密集监督主要影响低层 Transformer 层(0-7),冻结低层会消除收益,而冻结中层则保留收益。这种表征变化在后续 MLM 阶段持续存在,且随模型规模扩大而增强。团队发布了 ModernCamemBERT-bio 和 ModernBERT-bio 作为生物医学编码器新基准。

arXiv cs.AIWhen adapting an encoder to a new domain, the standard approach is to continue training with Masked Language Modeling (MLM). We show that temporarily switching to Causal Language Modeling (CLM) followed by a short MLM de