全部 AI 动态 · AI 热点

6月19日

18:27

18:27

Decoder@Maximilian Schreiner

OpenAI研究者发现，通过强化学习对诚实性、可修正性等理想行为特质进行训练，模型在跨领域表现提升。在健康数据上训练后，欺骗检测能力也增强，模型在53个基准中的44个上得分更高。该方法与Anthropic的基于宪法的对齐方法不同。研究显示少量特质训练即可带来广泛安全改善。

论文 OpenAI AI安全强化学习对齐基准测试

推荐理由：OpenAI发现，只给模型一点点“诚实”训练，它就在53个测试里赢了44个，连健康领域的骗术都能识破。和Anthropic的路数不一样，挺有意思。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

15:56

15:56

pandaily@contact@pandaily.com (Pandaily)

在第八届BAAI大会上，图灵奖得主Whitfield Diffie和Andrew Barto分别发表主题演讲，共同关注AGI安全与对齐背后的基础理论挑战。Diffie指出当前AI系统缺乏可验证的安全机制，Barto则强调强化学习中的奖励设计难题。两位学者认为，AGI的安全问题不仅是工程问题，更是理论问题，需要从数学和哲学层面重新思考。这一讨论为AI安全研究提供了新的视角，提醒业界在追求能力提升的同时不能忽视理论基础。

AI模型 AGI安全图灵奖理论挑战对齐 BAAI

推荐理由：两位图灵奖得主同时敲响AGI安全理论警钟，做AI安全研究的团队值得关注——这可能是未来几年最核心的学术方向。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月13日

09:31

09:31IT之家（博客/媒体）

70°

OpenAI前研究员Daniel Kokotajlo表示，AI行业正竞相构建各家公司自身尚未完全理解或控制的系统。核心问题是“对齐”问题，即确保未来AI系统可靠遵循人类指令和价值观，但研究人员目前并不完全理解先进AI模型内部如何决策。Kokotajlo警告，一旦超级智能被造出，人类将不再是地球的主导者。这一警告正值AI公司持续向更强大模型和更大规模数据中心投入巨资之际。

行业 AI安全大模型 OpenAI 对齐

推荐理由：来自前OpenAI研究员的内部视角，揭示了AI对齐问题的严峻性和行业现状，对理解AI安全风险具有重要参考价值。