多智能体LLM级联中的幻觉传播分析

精选理由

多智能体系统开发者终于有了量化幻觉传播的基准——这篇论文揭示了级联深度与事实准确性的权衡，做Agent编排的团队建议仔细看，避免盲目堆叠智能体导致事实失真。

AI 摘要

该研究分析了多智能体LLM系统中幻觉的动态传播过程，通过500次级联实验追踪事实不一致性。结果显示，3级级联将归一化幻觉分数从0.422降至0.272，但事实准确性从0.789降至0.769，揭示了幻觉抑制与事实保留之间的权衡。不同模型表现各异：LLaMA-3-70B-Instruct幻觉最低，GPT-5.3生成更快但幻觉率更高。领域分析表明，科学领域幻觉较低，抽象领域较高。

AI 翻译 · 中文

arXiv: DeepSeekLarge Language Models (LLMs) generate fluent text but remain vulnerable to hallucinations, producing unsupported, inconsistent, and factually incorrect claims. Most prior work treats hallucination as a static property of…

阅读原文