6月11日
11:58
11:58arXiv cs.LG@Leon Bergen, Usha Bhalla, Sidharth Baskaran, Max Loeffler, Raphael Sarfati, Dhruvil Gala, Ryan Panwar, Santiago Aranguri, Thomas Fel, Atticus Geiger, Matthew Kowal, Siddharth Boppana, Daniel Balsam, Owen Lewis, Jack Merullo, Thomas McGrath, Ekdeep Singh Lubana
精选
这篇论文提出了一种基于可解释性的后训练数据管道,用于诊断和修正偏好数据中的虚假关联。作者通过可解释性协议识别出数据中潜在的概念,让用户能明确哪些行为应该被模型学习。实验表明,该方法能有效缓解过度风格化、谄媚等不良行为,并增强安全性和个性等期望属性。这项工作将后训练从优化黑箱奖励转变为审计和塑造学习信号的过程。
推荐理由:做模型对齐和偏好优化的团队终于有了数据层面的诊断工具——不用再盲目调奖励权重,直接看数据教了模型什么。做安全对齐或模型人格定制的开发者建议点开,能省下大量试错时间。
6月3日
10:47
10:47arXiv cs.AI@Areeb Gani, Asal Meskin, Gabrielle Kaili-May Liu, Arman Cohan
精选
该研究提出一个系统框架,用于量化大型推理模型(LRM)在输出长链思维时,其内在置信度与语言表达置信度之间的对齐程度(即忠实校准FC)。研究发现,LRM的推理行为并不会自动提升FC,且针对非推理模型的提示干预在推理场景中无效。不同置信度估计器对同一推理轨迹给出分歧评估,暴露了现有评估方法的脆弱性。这项工作将FC确立为LRM在高风险部署场景下的关键可靠性与对齐目标。
推荐理由:LRM的推理链常被用户视为深思熟虑的证据,但这项研究戳破了这个幻觉——推理行为并不等于置信度表达更可靠。做模型对齐或安全评估的团队值得关注,尤其是那些在医疗、金融等高风险场景部署LRM的开发者,看完会重新审视你的置信度校准策略。