模型对齐 · AI 话题观测

§ 01综述

可解释性控制：研究通过分析后训练数据使模型学习更可控（可解释性分析后训练数据：让模型学习更可控）；Subliminal Learning利用单一steering vector实现高效对齐，揭示向量蒸馏潜力（Subliminal Learning 通过单一 steering vector 实现，揭示向量蒸馏机制）。
评测与方法改进：针对大型推理模型无法忠实表达置信度的问题，新框架量化FC（大型推理模型无法忠实表达置信度：新框架量化FC问题）；现成人设向量可替代CAA减少模型谄媚行为（现成人设向量可替代CAA减少模型谄媚行为）。
偏见与安全：VLM在模糊输入下系统性压制女性表征，揭示内部编码与输出脱耦（VLM在模糊输入下系统性压制女性表征，LALS揭示内部编码与输出脱耦）；Anthropic发布Opus 4.8系统卡揭示安全隐忧（Anthropic 发布 Opus 4.8，自读 200 页 System Card 揭示安全隐忧）。
人格与价值：微调导致大模型角色分化失控（人格模型崩溃：微调导致大模型角色分化失控），Anthropic研究主张学者、哲学家和神学家参与塑造模型品格（Anthropic 研究：前沿 AI 需要学者、哲学家和神学家参与塑造模型品格）。

当前焦点：从表层奖励建模转向可解释的内部表征控制，同时关注对齐的副产品如置信度失真、人格分裂及隐藏偏见。未来观察点：steering vector等轻量方法的可用性与泛化性，以及多学科协作对齐框架的实操效果。

§ 02相关报道08 条在档

§ 03邻近话题