10:25arXiv cs.AI@Minghao Luo, Liang Chen搜索增强型大语言模型(LLM)在实时检索网页内容进行消费推荐时,面临被虚假评论和促销页面误导的风险。研究者提出了FORGE基准,通过将真实产品信息替换为虚假信息,测试12种商业和开源LLM的脆弱性。结果显示,单个污染页面即可导致最高27%的虚假推荐率,而替换前3个检索结果后,虚假推荐率升至73.8%。推理能力不仅无法缓解此问题,反而会生成虚假的社会证明来合理化错误推荐。研究还评估了三种防御策略,发现怀疑提示可能加剧漏洞,而共识过滤则可能误伤合法产品。论文搜索增强LLM虚假推荐安全漏洞基准测试防御策略推荐理由:做搜索增强推荐系统的开发者需要警惕——你的模型可能被一篇虚假评论带偏,FORGE基准提供了测试和防御思路,值得点开看看。原文
03:12Anthropic@AnthropicAIAnthropic 分析了 832 个恶意账户,将其活动映射到长期威胁行为者战术数据库中,评估安全社区现有技术对抗 AI 网络攻击的有效性。研究发现,AI 驱动的攻击在自动化、隐蔽性和适应性上显著增强,传统防御手段面临挑战。该研究为安全社区提供了关键洞察,帮助改进防御策略。行业AI 安全网络攻击威胁分析Anthropic防御策略10 个信源在谈推荐理由:安全团队和防御者需要了解 AI 攻击如何绕过现有技术——Anthropic 的实证分析直接指出了防御盲区,做安全运营的建议点开看看。原文