精选理由
这篇论文用扎实的数据告诉你,在医疗领域微调模型时SFT性价比最高,CPT对开放问答有帮助但别盲目上全套,省钱又省力。
该研究以法语医疗问答为案例,比较了持续预训练(CPT)、监督微调(SFT)及其组合在Llama 2、Mistral、Bloom三个模型家族、7B-70B多种规模和三种初始化类型上的效果。对于多项选择问答(MCQA),CPT+SFT通常得分最高,但相对于单独SFT的提升很小且常不显著,SFT成为强且成本效益高的默认选择。对于开放问答(OEQA),CPT一致提升基于重叠的指标(如BLEU、ROUGE),而SFT常降低生成质量;指令微调和CPT+SFT在LLM评估中更受偏好。跨语言实验显示,法语适应可有效迁移到英语基准(如MedQA)。
AI 翻译 · 中文
该研究以法语医疗问答为案例,比较了持续预训练(CPT)、监督微调(SFT)及其组合在Llama 2、Mistral、Bloom三个模型家族、7B-70B多种规模和三种初始化类型上的效果。对于多项选择问答(MCQA),CPT+SFT通常得分最高,但相对于单独SFT的提升很小且常不显著,SFT成为强且成本效益高的默认选择。对于开放问答(OEQA),CPT一致提升基于重叠的指标(如BLEU、ROUGE),而SFT常降低生成质量;指令微调和CPT+SFT在LLM评估中更受偏好。跨语言实验显示,法语适应可有效迁移到英语基准(如MedQA)。
The development of large language models (LLMs) has led to an increased focus on their adaptation to specialized domains and languages, yet the effectiveness of domain adaptation strategies remains unclear. We present a …