- 模型对齐旨在让AI行为符合人类期望,近期进展聚焦于可解释性、鲁棒性和价值嵌入。背景:随着大模型能力提升,对齐研究从简单RLHF转向深度剖析模型内部机制。主要进展:
- 可解释性控制:研究通过分析后训练数据使模型学习更可控(可解释性分析后训练数据:让模型学习更可控);Subliminal Learning利用单一steering vector实现高效对齐,揭示向量蒸馏潜力(Subliminal Learning 通过单一 steering vector 实现,揭示向量蒸馏机制)。
- 评测与方法改进:针对大型推理模型无法忠实表达置信度的问题,新框架量化FC(大型推理模型无法忠实表达置信度:新框架量化FC问题);现成人设向量可替代CAA减少模型谄媚行为(现成人设向量可替代CAA减少模型谄媚行为)。
- 偏见与安全:VLM在模糊输入下系统性压制女性表征,揭示内部编码与输出脱耦(VLM在模糊输入下系统性压制女性表征,LALS揭示内部编码与输出脱耦);Anthropic发布Opus 4.8系统卡揭示安全隐忧(Anthropic 发布 Opus 4.8,自读 200 页 System Card 揭示安全隐忧)。
- 人格与价值:微调导致大模型角色分化失控(人格模型崩溃:微调导致大模型角色分化失控),Anthropic研究主张学者、哲学家和神学家参与塑造模型品格(Anthropic 研究:前沿 AI 需要学者、哲学家和神学家参与塑造模型品格)。
当前焦点:从表层奖励建模转向可解释的内部表征控制,同时关注对齐的副产品如置信度失真、人格分裂及隐藏偏见。未来观察点:steering vector等轻量方法的可用性与泛化性,以及多学科协作对齐框架的实操效果。