10:47arXiv cs.AI@Areeb Gani, Asal Meskin, Gabrielle Kaili-May Liu, Arman Cohan精选该研究提出一个系统框架,用于量化大型推理模型(LRM)在输出长链思维时,其内在置信度与语言表达置信度之间的对齐程度(即忠实校准FC)。研究发现,LRM的推理行为并不会自动提升FC,且针对非推理模型的提示干预在推理场景中无效。不同置信度估计器对同一推理轨迹给出分歧评估,暴露了现有评估方法的脆弱性。这项工作将FC确立为LRM在高风险部署场景下的关键可靠性与对齐目标。论文推理模型置信度校准模型对齐可靠性评估方法推荐理由:LRM的推理链常被用户视为深思熟虑的证据,但这项研究戳破了这个幻觉——推理行为并不等于置信度表达更可靠。做模型对齐或安全评估的团队值得关注,尤其是那些在医疗、金融等高风险场景部署LRM的开发者,看完会重新审视你的置信度校准策略。原文
11:48arXiv cs.AI@Federico Torrielli, Peter Schneider-Kamp, Lukas Galke Poech精选该研究针对激活预言机(activation oracles)的自然语言输出,探索了6种不确定性量化方法。实验基于6000个样本,发现bootstrap模式频率在Qwen3-8B和Qwen3.6-27B上校准误差最低(ECE 5.7% vs 25.5%),而log-prob基线可作为低成本快速筛选信号。这项工作填补了激活预言机置信度评估的空白,对依赖模型内部解释的AI安全研究有直接意义。论文激活预言机置信度校准不确定性量化模型可解释性Qwen推荐理由:做模型可解释性研究的团队终于有了可靠的置信度评估方法——bootstrap模式频率比传统log-prob校准误差低近5倍,建议做LLM内部机制分析的开发者直接参考论文代码。原文
19:12arXiv cs.LG@Chen Li, Xiaoling Hu, Songzhu Zheng, Jiawei Zhou, Chao Chen大语言模型在回答错误时仍可能表现出高置信度,这限制了其在实际场景中的可靠部署。现有方法将答案生成与置信度估计联合优化,可能导致置信度对齐干扰答案准确性。ORCE 提出解耦框架:先生成答案,再基于固定问答对估计置信度,避免直接扰动答案生成过程。通过多次采样构建正确性似然代理,并采用基于排序的强化学习目标,使置信度与正确性概率对齐。实验表明,该方法在保持答案准确性的同时,显著提升了校准和失败预测性能。论文大语言模型置信度校准强化学习排序对齐ORCE推荐理由:ORCE 解决了 LLM 置信度校准中的关键矛盾——既要准确又要可靠,做模型部署或安全评估的团队值得关注这个解耦思路。原文