Gary Marcus：LLM 的幻觉源于概率重构，非训练数据

精选理由

Marcus 戳破了“幻觉只靠清洗数据就能解决”的迷思，做 AI 安全或法律 AI 的团队值得深思——模型概率本质才是硬伤。

AI 摘要

Gary Marcus 指出，大语言模型（LLM）产生“胡扯”（bullshit）的根本原因并非训练数据中的错误，而是系统概率性重构信息的方式。即使训练数据完全干净，LLM 仍会因概率机制产生幻觉，法律引用幻觉是典型例子。这一观点挑战了“幻觉源于不良训练数据”的常见认知，强调模型架构本身的局限性。Marcus 认为，减少训练数据中的错误只能部分缓解问题，无法根除。

AI 翻译 · 中文

Gary Marcusfun fact many people don’t know: Gary Marcus, MIT PhD and NYU Professor Emeritus @GaryMarcus LLMs actually produce bullshit for many reasons, and would continue to do so (though less) even they weren’t trained on bullshi…

查看原推