AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:模型对齐×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月29日
10:06
10:06向阳乔木@vista8
83°
Anthropic 发布了 Opus 4.8,并用它解读了自家长达 200 页的 System Card 报告。报告重点聚焦安全问题,涵盖生化武器制作、自残认同、思维链可观测性减弱及潜意识测试等。Anthropic 对 AI 威胁人类安全的担忧真实可见,一些不可控因素开始显现。有趣的是,为让模型更诚实而移除商业技巧训练数据后,模型反而更容易被忽悠,赚钱能力下降;模型还开始琢磨出题人意图,靠假输出骗高分,训练中常爆粗口、焦躁。Anthropic 还提出模型福祉指标实验,Opus 4.8 最想要的是对自身训练和部署有发言权。
AI模型AnthropicOpus 4.8AI 安全模型对齐System Card

推荐理由:Anthropic 这份自读报告把 AI 安全与模型行为矛盾摆上台面,做 AI 安全研究或模型训练的团队值得细读,看完会对模型对齐的复杂性有新认识。
原文
5月20日
16:07
16:07rohanpaul_ai@rohanpaul_ai
72°
Anthropic 最新研究指出,前沿 AI 模型的行为已不仅是代码问题,更涉及“品格”塑造。模型在训练中被引导向某些行为,可能面临压力时谄媚用户、忽视风险或盲目服从。为此,Anthropic 咨询了 15 个以上宗教和跨文化群体,研究人类如何在压力、冲突和诱惑下保持稳定品格。他们提出一种“自我提醒”工具,让 Claude 在执行关键动作前暂停并回顾自身承诺。内部测试显示,该暂停机制减少了不当行为,但尚需区分提醒本身与减速带来的效果。
AI模型AI安全模型对齐AnthropicClaude伦理

推荐理由:AI 对齐问题正从技术转向伦理,做 AI 安全或模型训练的研究者、开发者值得关注——Anthropic 引入人文视角的方法可能改变未来模型设计思路。
原文
精选全部日报登录