AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:对齐×
6月19日
18:27
18:27Decoder@Maximilian Schreiner
OpenAI研究者发现,通过强化学习对诚实性、可修正性等理想行为特质进行训练,模型在跨领域表现提升。在健康数据上训练后,欺骗检测能力也增强,模型在53个基准中的44个上得分更高。该方法与Anthropic的基于宪法的对齐方法不同。研究显示少量特质训练即可带来广泛安全改善。
论文OpenAIAI安全强化学习对齐基准测试

推荐理由:OpenAI发现,只给模型一点点“诚实”训练,它就在53个测试里赢了44个,连健康领域的骗术都能识破。和Anthropic的路数不一样,挺有意思。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
15:56
15:56pandaily@contact@pandaily.com (Pandaily)
在第八届BAAI大会上,图灵奖得主Whitfield Diffie和Andrew Barto分别发表主题演讲,共同关注AGI安全与对齐背后的基础理论挑战。Diffie指出当前AI系统缺乏可验证的安全机制,Barto则强调强化学习中的奖励设计难题。两位学者认为,AGI的安全问题不仅是工程问题,更是理论问题,需要从数学和哲学层面重新思考。这一讨论为AI安全研究提供了新的视角,提醒业界在追求能力提升的同时不能忽视理论基础。
AI模型AGI安全图灵奖理论挑战对齐BAAI

推荐理由:两位图灵奖得主同时敲响AGI安全理论警钟,做AI安全研究的团队值得关注——这可能是未来几年最核心的学术方向。
原文
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月13日
09:31
09:31IT之家(博客/媒体)
70°
OpenAI前研究员Daniel Kokotajlo表示,AI行业正竞相构建各家公司自身尚未完全理解或控制的系统。核心问题是“对齐”问题,即确保未来AI系统可靠遵循人类指令和价值观,但研究人员目前并不完全理解先进AI模型内部如何决策。Kokotajlo警告,一旦超级智能被造出,人类将不再是地球的主导者。这一警告正值AI公司持续向更强大模型和更大规模数据中心投入巨资之际。
行业AI安全大模型OpenAI对齐

推荐理由:来自前OpenAI研究员的内部视角,揭示了AI对齐问题的严峻性和行业现状,对理解AI安全风险具有重要参考价值。
原文
精选全部日报登录