论文精选

Structured Ignorance Certificates:让推理模型学会承认“不知道”

Calibration of Structured Ignorance Certificates for Diagnosing Unknown Unknowns in Reasoning Models

精选理由

这项研究直接戳中了LLM的“幻觉”痛点——用结构化输出让模型承认无知,做AI安全或可靠性研究的团队值得关注,尤其适合需要高可信度输出的应用场景。

AI 摘要

大语言模型常会“不懂装懂”,对超出知识边界的问题给出流畅但错误的回答。研究者提出结构化无知证书(SICs),要求模型明确输出缺失的领域交集、所需概念和检索查询,而非直接生成答案。团队构建了7347条跨领域未知-未知数据集,并用GRPO微调14B模型,使SIC输出JSON有效率达99.46%,概念特异性评分0.967。该方法证明,让模型显式表达认知边界是可学习且可衡量的能力,对提升AI可靠性和安全性有重要意义。

AI 翻译 · 中文

大语言模型常会“不懂装懂”,对超出知识边界的问题给出流畅但错误的回答。研究者提出结构化无知证书(SICs),要求模型明确输出缺失的领域交集、所需概念和检索查询,而非直接生成答案。团队构建了7347条跨领域未知-未知数据集,并用GRPO微调14B模型,使SIC输出JSON有效率达99.46%,概念特异性评分0.967。该方法证明,让模型显式表达认知边界是可学习且可衡量的能力,对提升AI可靠性和安全性有重要意义。

arXiv cs.AILarge language models frequently fail in a characteristic way: rather than acknowledging ignorance, they produce fluent but incorrect answers to questions that lie beyond their knowledge boundaries. We introduce \textbf{