精选理由
这项研究直接戳中了LLM的“幻觉”痛点——用结构化输出让模型承认无知,做AI安全或可靠性研究的团队值得关注,尤其适合需要高可信度输出的应用场景。
大语言模型常会“不懂装懂”,对超出知识边界的问题给出流畅但错误的回答。研究者提出结构化无知证书(SICs),要求模型明确输出缺失的领域交集、所需概念和检索查询,而非直接生成答案。团队构建了7347条跨领域未知-未知数据集,并用GRPO微调14B模型,使SIC输出JSON有效率达99.46%,概念特异性评分0.967。该方法证明,让模型显式表达认知边界是可学习且可衡量的能力,对提升AI可靠性和安全性有重要意义。
AI 翻译 · 中文
大语言模型常会“不懂装懂”,对超出知识边界的问题给出流畅但错误的回答。研究者提出结构化无知证书(SICs),要求模型明确输出缺失的领域交集、所需概念和检索查询,而非直接生成答案。团队构建了7347条跨领域未知-未知数据集,并用GRPO微调14B模型,使SIC输出JSON有效率达99.46%,概念特异性评分0.967。该方法证明,让模型显式表达认知边界是可学习且可衡量的能力,对提升AI可靠性和安全性有重要意义。
Large language models frequently fail in a characteristic way: rather than acknowledging ignorance, they produce fluent but incorrect answers to questions that lie beyond their knowledge boundaries. We introduce \textbf{…