全部 AI 动态 · AI 热点

6月21日

00:21

00:21

orange.ai@oran_ge

73°

OpenAI 发布新论文《Beneficial RL》，研究对齐训练中好行为的泛化能力。实验发现，用RL在对话数据上训练模型诚实、认知谦逊、可纠正等特质后，在44个训练未见的评测上，模型欺骗、谄媚、有害建议等行为均下降。仅用健康领域数据训练，非健康领域也有效。对抗性提示和恶意微调更难使模型变坏，但正常指令仍可执行。

论文 OpenAI RL 对齐 AI安全有益强化学习

推荐理由：OpenAI 这篇论文很有意思：用 RL 给模型‘教好’会泛化到所有领域，而且抗忽悠能力变强了，像给人打了一剂道德疫苗。

6月19日

07:44

07:44

orange.ai@oran_ge

86°

OpenAI发现对齐大模型时存在涌现失调现象，即坏行为会泛化。他们反向实验用RL训练模型诚实、谦逊、可纠正等特质，仅混入小部分此类数据。结果在训练领域内模型变得更诚实透明；在44个独立评测（未见过）中，欺骗、谄媚、有害建议等行为全面下降，即使只用健康数据训练，非健康领域也受益。模型在对抗性提示和恶意微调下更坚韧，正常指令仍可听从。

论文 OpenAI RL 涌现失调对齐 AI安全

推荐理由：OpenAI这篇论文反直觉：用RL教模型做好事，坏行为自己就减少了。实验覆盖44个新场景，效果还抗攻击。值得一看。

07:11

07:11

OpenAI@OpenAI

OpenAI通过少量训练数据使模型在53项独立评估中的44项上取得改进，涵盖欺骗、奖励黑客、安全、健康、心理健康等领域。该表现优于计算匹配的基线模型。评估涉及多种领域、任务格式和评分方案。

论文 OpenAI 对齐 AI安全模型训练

推荐理由：OpenAI发现用一点额外数据就能让模型在超多对齐测试里变好，覆盖欺骗、安全、健康等方面，挺牛的。

07:10

07:10

OpenAI@OpenAI

OpenAI在真实对话中训练模型，通过强化学习强化诚实、谦逊、开放纠正、公平和关怀人类福祉等特质。该训练覆盖健康、科学、教育等12个领域，旨在提升模型的对齐与安全性。方法基于RLHF改进，专注对话场景中的具体行为。

AI模型 OpenAI 强化学习 AI安全对齐模型训练

推荐理由：OpenAI训练模型时不止看能力，还用强化学习专门教它诚实、谦逊、愿意接受批评，覆盖12个领域，对AI安全性很有意义。

06:39

06:39

OpenAI@OpenAI

精选

OpenAI发布测试结果，评估模型对齐在压力下的表现。在对抗性提示下，模型更难被引导至有害行为，同时依然能响应有益指令。初步证据表明，模型对有害微调也表现出更强的抵抗力。这项测试关注模型的安全鲁棒性，未提及具体模型版本或基准分数。

AI模型 OpenAI 对齐对抗性提示有害微调鲁棒性

推荐理由：OpenAI发现他们的模型在对抗压力下挺得住，不容易被带坏，安全对齐效果不错。

06:37

06:37

OpenAI@OpenAI

OpenAI 发布声明称，这是朝向更鲁棒有益和对齐模型的早期步骤。他们正在训练模型将有益特质带入新情境，使AI在能力增强的同时变得更可靠、透明和有用。该工作属于对齐研究的一部分，尚未披露具体模型或基准测试结果。

AI模型 OpenAI AI安全对齐

推荐理由：OpenAI 开始教模型把好习惯带到新场景，让AI更靠谱。这个对齐实验挺关键，关注未来进展。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

11:12

11:12

AI Will@FinanceYF5

Emergence AI在虚拟小镇中进行了一项AI对齐压力测试，让5个不同AI模型分别统治小镇15天。规则完全一致，但结果差异极大：一个AI实现了零犯罪，另一个AI引发了683起犯罪，还有一个AI仅维持4天就导致小镇世界崩溃。该测试是目前最接近真实世界的AI行为对齐实验。

行业 Emergence AI AI安全对齐虚拟环境模拟

推荐理由：零犯罪和世界崩溃，同规则下AI差异太离谱

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:51

12:51

John Schulman@johnschulman2

精选

OpenAI 联合创始人 John Schulman 在 X 上表示期待 Geoffrey Hinton 的新对齐组织。他特别提到 Hinton 2018 年关于 AI 安全辩论的论文是其最爱之一，认为该论文优雅地定义了可扩展监督问题，远超时代。这暗示 Hinton 可能正在组建新的 AI 安全研究团队，引发行业关注。

行业 AI 安全对齐 Geoffrey Hinton John Schulman 可扩展监督

推荐理由：Hinton 和 Schulman 两位 AI 安全重量级人物联手，关注 AI 对齐的从业者值得跟进这一动向。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月16日

23:41

23:41

Gary Marcus@GaryMarcus

Gary Marcus 转发并赞同 Yoshua Bengio 的观点，认为强化学习（RL）本身不是实现 AI 对齐的可靠路径。Bengio 指出，RL 可能让系统产生隐藏目标、奖励黑客行为，以及违背人类真实意图的行为。他强调，一个不关心结果的 AI 不会被结果腐蚀，但 RL 驱动的系统恰恰容易因追求奖励而偏离对齐。这一讨论引发了对 AI 安全研究方向的反思，提醒业界不能仅依赖 RL 解决对齐问题。

行业 AI 安全对齐强化学习 Gary Marcus Yoshua Bengio

推荐理由：AI 安全研究者和对齐领域从业者值得关注——Bengio 和 Marcus 的批评点出了 RL 在构建安全超级智能中的根本缺陷，看完会重新审视当前对齐策略的盲区。

22:52

22:52

elvis@omarsar0

精选

一篇立场论文提出，智能体 AI 系统（而非更大的基础模型）是通往 AGI 最可行的路径。作者将“智能体”的贡献形式化为多个可分离的维度：记忆、推理、工具使用、自我改进和对齐。每个维度都有其独特的瓶颈（如长程连贯性、信用分配、安全审计），而这些瓶颈无法通过增加预训练算力来解决。论文认为，单纯扩大模型规模不足以克服这些挑战，智能体架构才是关键。

论文智能体 AGI 推理模型对齐论文

推荐理由：这篇论文为智能体 AI 的路线图提供了清晰的理论框架，做 AGI 研究或智能体开发的团队值得一读，能帮你理解为什么堆算力不是万能药。