精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:58

arXiv cs.LG@Leon Bergen, Usha Bhalla, Sidharth Baskaran, Max Loeffler, Raphael Sarfati, Dhruvil Gala, Ryan Panwar, Santiago Aranguri, Thomas Fel, Atticus Geiger, Matthew Kowal, Siddharth Boppana, Daniel Balsam, Owen Lewis, Jack Merullo, Thomas McGrath, Ekdeep Singh Lubana

精选

这篇论文提出了一种基于可解释性的后训练数据管道，用于诊断和修正偏好数据中的虚假关联。作者通过可解释性协议识别出数据中潜在的概念，让用户能明确哪些行为应该被模型学习。实验表明，该方法能有效缓解过度风格化、谄媚等不良行为，并增强安全性和个性等期望属性。这项工作将后训练从优化黑箱奖励转变为审计和塑造学习信号的过程。

论文可解释性后训练偏好数据模型对齐数据审计

推荐理由：做模型对齐和偏好优化的团队终于有了数据层面的诊断工具——不用再盲目调奖励权重，直接看数据教了模型什么。做安全对齐或模型人格定制的开发者建议点开，能省下大量试错时间。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02