01:43Anthropic@AnthropicAI精选Anthropic 发布 Frontier Red Team 博客,介绍 Project Fetch 第二阶段:测试 Claude 编程机器人狗的能力。Opus 4.7 自主完成编程任务,速度比去年最佳人类团队(使用 Opus 4.1)快约 20 倍。尽管速度提升显著,机器人狗仍未成功取回沙滩球。该研究旨在评估前沿模型在物理世界中的自主能力与安全风险。AI模型ClaudeOpus 4.7Anthropic机器人编程安全测试10 个信源在谈推荐理由:Anthropic 让 Claude 自己写代码控制机器狗,速度比人快20倍,虽然最后没抓到球,但过程特别有意思原文
04:18Fireworks AI@FireworksAI_HQRamp Labs 在自家后端部署了 1 万个 AI 智能体进行安全测试,发现开源模型(Kimi K2.6 和 DeepSeek V4 Pro)在 Fireworks 上运行,能以比 GPT 5.5 低约 5 倍的 token 成本,成功发现 7 个高危漏洞。Ramp 表示如果重做,会更依赖开源模型。这为开源权重模型在安全领域的价值提供了有力证据,表明在 GPU 资源稀缺的背景下,成本和效果需要平衡。行业开源模型安全测试智能体成本优化Ramp Labs推荐理由:做安全测试或 AI 落地的团队,这个案例直接告诉你:开源模型在真实生产代码中能低成本挖出高危漏洞,值得在预算有限时优先尝试。原文