03:16AlphaSignal@AlphaSignalAI卡内基梅隆大学构建SusVibes基准,包含200个真实编程任务,每个任务来自历史上人类曾引入漏洞的开源项目。SWE-Agent(Claude 4 Sonnet)通过功能测试61%,但仅10.5%的解决方案安全,超过80%的工作代码含有漏洞。尝试添加安全警告、让代理识别弱点、揭示漏洞类型三种修复,安全改善甚微,功能准确度下降7个百分点。AI模型SusVibesSWE-AgentClaude 4 Sonnet卡内基梅隆大学代码安全推荐理由:卡内基梅隆的测试发现,编程代理写代码10个里只有1个安全。别信AI代码,一定要做安全审查。原文