Structured Ignorance Certificates：让推理模型学会承认“不知道”

精选理由

这项研究直接戳中了LLM的“幻觉”痛点——用结构化输出让模型承认无知，做AI安全或可靠性研究的团队值得关注，尤其适合需要高可信度输出的应用场景。

AI 摘要

大语言模型常会“不懂装懂”，对超出知识边界的问题给出流畅但错误的回答。研究者提出结构化无知证书（SICs），要求模型明确输出缺失的领域交集、所需概念和检索查询，而非直接生成答案。团队构建了7347条跨领域未知-未知数据集，并用GRPO微调14B模型，使SIC输出JSON有效率达99.46%，概念特异性评分0.967。该方法证明，让模型显式表达认知边界是可学习且可衡量的能力，对提升AI可靠性和安全性有重要意义。

AI 翻译 · 中文

arXiv cs.AILarge language models frequently fail in a characteristic way: rather than acknowledging ignorance, they produce fluent but incorrect answers to questions that lie beyond their knowledge boundaries. We introduce \textbf{…

阅读原文