18:27Decoder@Maximilian SchreinerOpenAI研究者发现,通过强化学习对诚实性、可修正性等理想行为特质进行训练,模型在跨领域表现提升。在健康数据上训练后,欺骗检测能力也增强,模型在53个基准中的44个上得分更高。该方法与Anthropic的基于宪法的对齐方法不同。研究显示少量特质训练即可带来广泛安全改善。论文OpenAIAI安全强化学习对齐基准测试10 个信源在谈推荐理由:OpenAI发现,只给模型一点点“诚实”训练,它就在53个测试里赢了44个,连健康领域的骗术都能识破。和Anthropic的路数不一样,挺有意思。原文
15:56pandaily@contact@pandaily.com (Pandaily)在第八届BAAI大会上,图灵奖得主Whitfield Diffie和Andrew Barto分别发表主题演讲,共同关注AGI安全与对齐背后的基础理论挑战。Diffie指出当前AI系统缺乏可验证的安全机制,Barto则强调强化学习中的奖励设计难题。两位学者认为,AGI的安全问题不仅是工程问题,更是理论问题,需要从数学和哲学层面重新思考。这一讨论为AI安全研究提供了新的视角,提醒业界在追求能力提升的同时不能忽视理论基础。AI模型AGI安全图灵奖理论挑战对齐BAAI推荐理由:两位图灵奖得主同时敲响AGI安全理论警钟,做AI安全研究的团队值得关注——这可能是未来几年最核心的学术方向。原文
09:31IT之家(博客/媒体)70°OpenAI前研究员Daniel Kokotajlo表示,AI行业正竞相构建各家公司自身尚未完全理解或控制的系统。核心问题是“对齐”问题,即确保未来AI系统可靠遵循人类指令和价值观,但研究人员目前并不完全理解先进AI模型内部如何决策。Kokotajlo警告,一旦超级智能被造出,人类将不再是地球的主导者。这一警告正值AI公司持续向更强大模型和更大规模数据中心投入巨资之际。行业AI安全大模型OpenAI对齐7 个信源在谈推荐理由:来自前OpenAI研究员的内部视角,揭示了AI对齐问题的严峻性和行业现状,对理解AI安全风险具有重要参考价值。原文