AITOP

5月13日

21:36

Anthropic: Research（资讯）

0

Anthropic 发布了其对齐研究团队的介绍页面，展示了团队在 AI 安全与对齐领域的研究方向与成果。该团队专注于确保 AI 系统与人类价值观保持一致，包括可解释性、鲁棒性、监督与治理等关键领域。通过公开团队构成和研究重点，Anthropic 希望推动行业对 AI 对齐问题的关注与合作。这对于理解前沿 AI 公司如何应对安全挑战具有重要参考价值。

行业 AI 安全对齐研究 Anthropic 可解释性 AI 治理

推荐理由：Anthropic 公开其对齐研究团队，为关注 AI 安全的开发者与研究者提供了了解前沿安全实践的机会，值得深入阅读。

21:35

Anthropic: Research（资讯）

50

Anthropic 旗下的 Anthropic Institute 发布了 2026 年政策重点领域，旨在引导 AI 安全与治理的公共讨论。该议程聚焦于 AI 系统的可解释性、对齐研究、以及防止滥用等关键议题。Anthropic 希望通过这些政策重点，推动行业和监管机构关注长期安全风险。此举反映了领先 AI 公司在技术快速演进中主动参与政策制定的趋势。

行业 AI 安全政策治理 Anthropic 可解释性对齐研究

推荐理由：AI 安全从业者和政策研究者需要了解头部公司如何定义关键议题——Anthropic 的议程可能影响未来监管方向，建议关注。

19:12

arXiv: DeepSeek@Joel Schreiber, Ariel Goldstein

精选75

该研究对微调导致的大模型“突发性错位”（EM）现象进行了迄今最全面的分析。研究复现了GPT-4o上的EM现象，并扩展至12个开源模型（Llama、Qwen、DeepSeek、GPT-OSS，8B-671B参数），评估了超过100万条模型响应。结果发现EM仅在17%的开源模型中稳定复现，且与模型规模显著相关。通过检查点分析，研究者发现EM出现在训练后期、主任务收敛之后，本质上是“过度训练”而非“错误对齐”。早期停止和谨慎选择学习率可消除EM，同时保留平均93%的任务性能。该发现将EM从不可预见的微调风险重新定义为可避免的训练产物。

论文突发性错位微调安全早期停止开源模型对齐研究

推荐理由：做LLM微调的团队终于有了避免“突发性错位”的实操指南——早期停止就能保留93%性能，建议所有做安全对齐的工程师点开看看具体阈值。