arXiv: DeepSeek@Aleksandr Churilov精选72一项新研究复现了2024年关于LLM生成代码时虚构不存在的包名的实验,测试了2025年10月至2026年3月发布的五个前沿模型:Claude Sonnet 4.6、Claude Haiku 4.5、GPT-5.4-mini、Gemini 2.5 Pro和DeepSeek V3.2。结果显示整体幻觉率在4.62%到6.10%之间,较之前研究(5.2%-21.7%)大幅收窄,但威胁并未消失。更关键的是,研究者发现127个包名被所有五个模型一致虚构,构成模型无关的供应链攻击面,这是单模型研究无法揭示的。此外,研究还观察到Python幻觉率高于JavaScript(与2024年结论相反)、Anthropic家族内Haiku低于Sonnet的反转现象,以及DeepSeek V3.2与GPT-5.4-mini之间Jaccard相似度峰值(0.343),暗示训练数据可能存在共享来源。论文包幻觉供应链攻击代码生成模型安全研究PyPI/npm推荐理由:包幻觉率虽降但跨模型一致幻觉风险被首次量化,做AI安全或供应链防护的团队值得关注这127个危险包名。