论文精选72°

多智能体LLM级联中的幻觉传播分析

Hallucination Cascade: Analyzing Error Propagation in Multi-Agent LLM Systems

精选理由

多智能体系统开发者终于有了量化幻觉传播的基准——这篇论文揭示了级联深度与事实准确性的权衡,做Agent编排的团队建议仔细看,避免盲目堆叠智能体导致事实失真。

AI 摘要

该研究分析了多智能体LLM系统中幻觉的动态传播过程,通过500次级联实验追踪事实不一致性。结果显示,3级级联将归一化幻觉分数从0.422降至0.272,但事实准确性从0.789降至0.769,揭示了幻觉抑制与事实保留之间的权衡。不同模型表现各异:LLaMA-3-70B-Instruct幻觉最低,GPT-5.3生成更快但幻觉率更高。领域分析表明,科学领域幻觉较低,抽象领域较高。

AI 翻译 · 中文

该研究分析了多智能体LLM系统中幻觉的动态传播过程,通过500次级联实验追踪事实不一致性。结果显示,3级级联将归一化幻觉分数从0.422降至0.272,但事实准确性从0.789降至0.769,揭示了幻觉抑制与事实保留之间的权衡。不同模型表现各异:LLaMA-3-70B-Instruct幻觉最低,GPT-5.3生成更快但幻觉率更高。领域分析表明,科学领域幻觉较低,抽象领域较高。

arXiv: DeepSeekLarge Language Models (LLMs) generate fluent text but remain vulnerable to hallucinations, producing unsupported, inconsistent, and factually incorrect claims. Most prior work treats hallucination as a static property of