精选理由
Marcus 戳破了“幻觉只靠清洗数据就能解决”的迷思,做 AI 安全或法律 AI 的团队值得深思——模型概率本质才是硬伤。
Gary Marcus 指出,大语言模型(LLM)产生“胡扯”(bullshit)的根本原因并非训练数据中的错误,而是系统概率性重构信息的方式。即使训练数据完全干净,LLM 仍会因概率机制产生幻觉,法律引用幻觉是典型例子。这一观点挑战了“幻觉源于不良训练数据”的常见认知,强调模型架构本身的局限性。Marcus 认为,减少训练数据中的错误只能部分缓解问题,无法根除。
AI 翻译 · 中文
Gary Marcus 指出,大语言模型(LLM)产生“胡扯”(bullshit)的根本原因并非训练数据中的错误,而是系统概率性重构信息的方式。即使训练数据完全干净,LLM 仍会因概率机制产生幻觉,法律引用幻觉是典型例子。这一观点挑战了“幻觉源于不良训练数据”的常见认知,强调模型架构本身的局限性。Marcus 认为,减少训练数据中的错误只能部分缓解问题,无法根除。
fun fact many people don’t know: Gary Marcus, MIT PhD and NYU Professor Emeritus @GaryMarcus LLMs actually produce bullshit for many reasons, and would continue to do so (though less) even they weren’t trained on bullshi…