AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
AI 自动挑选的高价值内容
全部模型产品行业论文技巧
标签:代码生成模型×
5月19日
10:24
arXiv: DeepSeek@Aleksandr Churilov
精选72
一项新研究复现了2024年关于LLM生成代码时虚构不存在的包名的实验,测试了2025年10月至2026年3月发布的五个前沿模型:Claude Sonnet 4.6、Claude Haiku 4.5、GPT-5.4-mini、Gemini 2.5 Pro和DeepSeek V3.2。结果显示整体幻觉率在4.62%到6.10%之间,较之前研究(5.2%-21.7%)大幅收窄,但威胁并未消失。更关键的是,研究者发现127个包名被所有五个模型一致虚构,构成模型无关的供应链攻击面,这是单模型研究无法揭示的。此外,研究还观察到Python幻觉率高于JavaScript(与2024年结论相反)、Anthropic家族内Haiku低于Sonnet的反转现象,以及DeepSeek V3.2与GPT-5.4-mini之间Jaccard相似度峰值(0.343),暗示训练数据可能存在共享来源。
论文包幻觉供应链攻击代码生成模型安全研究PyPI/npm

推荐理由:包幻觉率虽降但跨模型一致幻觉风险被首次量化,做AI安全或供应链防护的团队值得关注这127个危险包名。