微调(Fine-tuning)作为适配预训练大模型到特定任务或领域的关键技术,近期在多个方向取得进展。一方面,参数高效微调方法(如LoRA)持续被用于提升模型在专业领域(如古诗词理解)的表现;另一方面,微调也被用于弥合模型架构间的形态鸿沟(如视觉-语言-行动模型到灵巧手控制)。同时,微调的安全性——尤其是如何防止微调后模型出现有害行为——成为新的关注焦点。
- 近期主要进展包括:
- 多模态与交互式生成:IterCAD提出多模态智能体框架,通过微调基础模型实现闭环交互式CAD生成与编辑,展示微调在复杂工程设计中的潜力(IterCAD:多模态智能体实现闭环交互式CAD生成与编辑)。
- LoRA微调提升文学理解:CCPoetry-49K数据集与PoetryQwen工作通过LoRA微调Qwen2.5模型,显著提升其古诗理解能力,验证了低成本微调在文化领域的效果(CCPoetry-49K 数据集与 PoetryQwen:LoRA 微调 Qwen2.5 提升古诗理解)。
- 微调对齐与安全:ALIGNBEAM提出一种跨词汇表的推理时安全对齐转移方法,确保微调后的模型仍保持安全行为,回应了微调可能破坏对齐的担忧(ALIGNBEAM:跨词汇表推理时安全对齐转移方法)。
- 形态鸿沟弥合:InDex框架通过意图条件微调,帮助视觉-语言-行动模型适应灵巧手的不同形态,凸显微调在机器人迁移学习中的价值(InDex:通过意图条件微调弥合VLA模型到灵巧手的形态鸿沟)。
当前焦点集中在微调的安全性与通用性:如何在保持模型原有泛化能力的同时,针对性提升特定领域性能,并防止引入偏见或有害行为。未来,更高效的参数高效微调方法、跨模态微调以及微调过程中对齐保持机制,将是重要观察方向。