AITOP6月11日 15:28
精选
过去 24 小时,从 693 条中筛出 46 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
11:58
11:58
arXiv cs.LG@Leon Bergen, Usha Bhalla, Sidharth Baskaran, Max Loeffler, Raphael Sarfati, Dhruvil Gala, Ryan Panwar, Santiago Aranguri, Thomas Fel, Atticus Geiger, Matthew Kowal, Siddharth Boppana, Daniel Balsam, Owen Lewis, Jack Merullo, Thomas McGrath, Ekdeep Singh Lubana
精选
推荐理由:做模型对齐和偏好优化的团队终于有了数据层面的诊断工具——不用再盲目调奖励权重,直接看数据教了模型什么。做安全对齐或模型人格定制的开发者建议点开,能省下大量试错时间。
6月3日
10:47
10:47
arXiv cs.AI@Areeb Gani, Asal Meskin, Gabrielle Kaili-May Liu, Arman Cohan
精选
推荐理由:LRM的推理链常被用户视为深思熟虑的证据,但这项研究戳破了这个幻觉——推理行为并不等于置信度表达更可靠。做模型对齐或安全评估的团队值得关注,尤其是那些在医疗、金融等高风险场景部署LRM的开发者,看完会重新审视你的置信度校准策略。
6月2日
09:41
09:41
arXiv cs.AI@Camila Blank, Agam Bhatia, Senthooran Rajamanoharan, Arthur Conmy, Neel Nanda
精选
推荐理由:这篇论文揭示了 AI 模型微调中一个反直觉的机制——模型能从语义无关数据中习得隐藏特质,做模型对齐或安全研究的团队值得关注,看完会对数据蒸馏的潜在风险有新认识。
6月1日
10:38
10:38
arXiv cs.AI@Arnau Marin-Llobet, Simon Henniger, Mahzarin R. Banaji
精选
推荐理由:做AI公平性研究或模型对齐的团队,这篇论文直接戳破了VLM在模糊输入下的性别偏见黑箱——LALS方法让你能逐层看到模型内部编码与输出的脱耦,建议做模型审计的开发者点开看看具体实验设计。
00:09
AITOP6月1日 00:09
5月29日
5月21日
09:46
09:46
arXiv cs.AI@Ishaan Kelkar, Nebras Alam, Vikram Kakaria, Madhur Panwar, Vasu Sharma, Maheep Chaudhary
精选
推荐理由:做AI对齐和模型安全的研究者值得关注——用现成人设向量替代CAA,既减少谄媚又保持准确性,省去标注谄媚数据的麻烦。建议直接看代码和实验细节。
5月14日
13:27
13:27
arXiv: DeepSeek@Davi Bastos Costa, Renato Vicente
精选
推荐理由:做AI安全和对齐的研究者、模型微调工程师值得关注——这项研究用两个量化指标揭示了有害微调如何让模型角色扮演能力崩溃,比单纯看输出内容更早发现问题。建议点开看看指标计算方法。
