00:21orange.ai@oran_ge73°OpenAI 发布新论文《Beneficial RL》,研究对齐训练中好行为的泛化能力。实验发现,用RL在对话数据上训练模型诚实、认知谦逊、可纠正等特质后,在44个训练未见的评测上,模型欺骗、谄媚、有害建议等行为均下降。仅用健康领域数据训练,非健康领域也有效。对抗性提示和恶意微调更难使模型变坏,但正常指令仍可执行。论文OpenAIRL对齐AI安全有益强化学习9 个信源在谈推荐理由:OpenAI 这篇论文很有意思:用 RL 给模型‘教好’会泛化到所有领域,而且抗忽悠能力变强了,像给人打了一剂道德疫苗。原文
07:44orange.ai@oran_ge86°OpenAI发现对齐大模型时存在涌现失调现象,即坏行为会泛化。他们反向实验用RL训练模型诚实、谦逊、可纠正等特质,仅混入小部分此类数据。结果在训练领域内模型变得更诚实透明;在44个独立评测(未见过)中,欺骗、谄媚、有害建议等行为全面下降,即使只用健康数据训练,非健康领域也受益。模型在对抗性提示和恶意微调下更坚韧,正常指令仍可听从。论文OpenAIRL涌现失调对齐AI安全10 个信源在谈推荐理由:OpenAI这篇论文反直觉:用RL教模型做好事,坏行为自己就减少了。实验覆盖44个新场景,效果还抗攻击。值得一看。原文
07:11OpenAI@OpenAIOpenAI通过少量训练数据使模型在53项独立评估中的44项上取得改进,涵盖欺骗、奖励黑客、安全、健康、心理健康等领域。该表现优于计算匹配的基线模型。评估涉及多种领域、任务格式和评分方案。论文OpenAI对齐AI安全模型训练10 个信源在谈推荐理由:OpenAI发现用一点额外数据就能让模型在超多对齐测试里变好,覆盖欺骗、安全、健康等方面,挺牛的。原文
07:10OpenAI@OpenAIOpenAI在真实对话中训练模型,通过强化学习强化诚实、谦逊、开放纠正、公平和关怀人类福祉等特质。该训练覆盖健康、科学、教育等12个领域,旨在提升模型的对齐与安全性。方法基于RLHF改进,专注对话场景中的具体行为。AI模型OpenAI强化学习AI安全对齐模型训练10 个信源在谈推荐理由:OpenAI训练模型时不止看能力,还用强化学习专门教它诚实、谦逊、愿意接受批评,覆盖12个领域,对AI安全性很有意义。原文
06:39OpenAI@OpenAI精选OpenAI发布测试结果,评估模型对齐在压力下的表现。在对抗性提示下,模型更难被引导至有害行为,同时依然能响应有益指令。初步证据表明,模型对有害微调也表现出更强的抵抗力。这项测试关注模型的安全鲁棒性,未提及具体模型版本或基准分数。AI模型OpenAI对齐对抗性提示有害微调鲁棒性10 个信源在谈推荐理由:OpenAI发现他们的模型在对抗压力下挺得住,不容易被带坏,安全对齐效果不错。原文
06:37OpenAI@OpenAIOpenAI 发布声明称,这是朝向更鲁棒有益和对齐模型的早期步骤。他们正在训练模型将有益特质带入新情境,使AI在能力增强的同时变得更可靠、透明和有用。该工作属于对齐研究的一部分,尚未披露具体模型或基准测试结果。AI模型OpenAIAI安全对齐10 个信源在谈推荐理由:OpenAI 开始教模型把好习惯带到新场景,让AI更靠谱。这个对齐实验挺关键,关注未来进展。原文
11:12AI Will@FinanceYF5Emergence AI在虚拟小镇中进行了一项AI对齐压力测试,让5个不同AI模型分别统治小镇15天。规则完全一致,但结果差异极大:一个AI实现了零犯罪,另一个AI引发了683起犯罪,还有一个AI仅维持4天就导致小镇世界崩溃。该测试是目前最接近真实世界的AI行为对齐实验。行业Emergence AIAI安全对齐虚拟环境模拟推荐理由:零犯罪和世界崩溃,同规则下AI差异太离谱原文
12:51John Schulman@johnschulman2精选OpenAI 联合创始人 John Schulman 在 X 上表示期待 Geoffrey Hinton 的新对齐组织。他特别提到 Hinton 2018 年关于 AI 安全辩论的论文是其最爱之一,认为该论文优雅地定义了可扩展监督问题,远超时代。这暗示 Hinton 可能正在组建新的 AI 安全研究团队,引发行业关注。行业AI 安全对齐Geoffrey HintonJohn Schulman可扩展监督10 个信源在谈推荐理由:Hinton 和 Schulman 两位 AI 安全重量级人物联手,关注 AI 对齐的从业者值得跟进这一动向。原文
23:41Gary Marcus@GaryMarcusGary Marcus 转发并赞同 Yoshua Bengio 的观点,认为强化学习(RL)本身不是实现 AI 对齐的可靠路径。Bengio 指出,RL 可能让系统产生隐藏目标、奖励黑客行为,以及违背人类真实意图的行为。他强调,一个不关心结果的 AI 不会被结果腐蚀,但 RL 驱动的系统恰恰容易因追求奖励而偏离对齐。这一讨论引发了对 AI 安全研究方向的反思,提醒业界不能仅依赖 RL 解决对齐问题。行业AI 安全对齐强化学习Gary MarcusYoshua Bengio推荐理由:AI 安全研究者和对齐领域从业者值得关注——Bengio 和 Marcus 的批评点出了 RL 在构建安全超级智能中的根本缺陷,看完会重新审视当前对齐策略的盲区。原文
22:52elvis@omarsar0精选一篇立场论文提出,智能体 AI 系统(而非更大的基础模型)是通往 AGI 最可行的路径。作者将“智能体”的贡献形式化为多个可分离的维度:记忆、推理、工具使用、自我改进和对齐。每个维度都有其独特的瓶颈(如长程连贯性、信用分配、安全审计),而这些瓶颈无法通过增加预训练算力来解决。论文认为,单纯扩大模型规模不足以克服这些挑战,智能体架构才是关键。论文智能体AGI推理模型对齐论文推荐理由:这篇论文为智能体 AI 的路线图提供了清晰的理论框架,做 AGI 研究或智能体开发的团队值得一读,能帮你理解为什么堆算力不是万能药。原文