模型对齐·general

模型对齐

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
7
§ 01综述

当前焦点:从表层奖励建模转向可解释的内部表征控制,同时关注对齐的副产品如置信度失真、人格分裂及隐藏偏见。未来观察点:steering vector等轻量方法的可用性与泛化性,以及多学科协作对齐框架的实操效果。

§ 02相关报道08 条在档
  1. 01
    可解释性分析后训练数据:让模型学习更可控
    arXiv cs.LG
  2. 02
    大型推理模型无法忠实表达置信度:新框架量化FC问题
    arXiv cs.AI
  3. 03
    Subliminal Learning 通过单一 steering vector 实现,揭示向量蒸馏机制
    arXiv cs.AI
  4. 04
    VLM在模糊输入下系统性压制女性表征,LALS揭示内部编码与输出脱耦
    arXiv cs.AI
  5. 05
    Anthropic 发布 Opus 4.8,自读 200 页 System Card 揭示安全隐忧
    向阳乔木
  6. 06
    现成人设向量可替代CAA减少模型谄媚行为
    arXiv cs.AI
  7. 07
    Anthropic 研究:前沿 AI 需要学者、哲学家和神学家参与塑造模型品格
    rohanpaul_ai
  8. 08
    人格模型崩溃:微调导致大模型角色分化失控
    arXiv: DeepSeek
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/%E6%A8%A1%E5%9E%8B%E5%AF%B9%E9%BD%90