19:47eric zakariasson@ericzakariasson73°Elon Musk在推文中透露,Cursor团队为v9模型的SFT和RL训练做出了重要的工程贡献。当前1.5T参数量的模型已通过补充训练加入Cursor数据。而两周前开始的2T参数量训练在数据范围和规模上大幅改进,训练配方也获得多项升级,预计7月底完成,8月发布。AI模型Elon MuskCursorv9SFTRL5 个信源在谈推荐理由:Elon Musk说他们和Cursor团队合作训练v9模型,2T参数量的版本数据更全,8月就能见到,值得关注。原文
07:07Suhail@Suhail精选Hamish Ivison等人发布了Tmax,一个基于强化学习的开源终端智能体模型。在默认设置和65k token预算下,Tmax优于之前的开源终端使用工作。团队公开了所有训练数据、模型权重和rollouts,方便复现和进一步研究。AI模型TmaxRLterminal agent开源模型智能体推荐理由:Tmax把终端智能体的RL训练配方全开源了,65k token里就跑赢之前的工作,想自己训智能体的可以抄作业。原文
00:21orange.ai@oran_ge73°OpenAI 发布新论文《Beneficial RL》,研究对齐训练中好行为的泛化能力。实验发现,用RL在对话数据上训练模型诚实、认知谦逊、可纠正等特质后,在44个训练未见的评测上,模型欺骗、谄媚、有害建议等行为均下降。仅用健康领域数据训练,非健康领域也有效。对抗性提示和恶意微调更难使模型变坏,但正常指令仍可执行。论文OpenAIRL对齐AI安全有益强化学习9 个信源在谈推荐理由:OpenAI 这篇论文很有意思:用 RL 给模型‘教好’会泛化到所有领域,而且抗忽悠能力变强了,像给人打了一剂道德疫苗。原文
07:44orange.ai@oran_ge86°OpenAI发现对齐大模型时存在涌现失调现象,即坏行为会泛化。他们反向实验用RL训练模型诚实、谦逊、可纠正等特质,仅混入小部分此类数据。结果在训练领域内模型变得更诚实透明;在44个独立评测(未见过)中,欺骗、谄媚、有害建议等行为全面下降,即使只用健康数据训练,非健康领域也受益。模型在对抗性提示和恶意微调下更坚韧,正常指令仍可听从。论文OpenAIRL涌现失调对齐AI安全10 个信源在谈推荐理由:OpenAI这篇论文反直觉:用RL教模型做好事,坏行为自己就减少了。实验覆盖44个新场景,效果还抗攻击。值得一看。原文