AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:安全测试×
6月19日
01:43
01:43Anthropic@AnthropicAI
精选
Anthropic 发布 Frontier Red Team 博客,介绍 Project Fetch 第二阶段:测试 Claude 编程机器人狗的能力。Opus 4.7 自主完成编程任务,速度比去年最佳人类团队(使用 Opus 4.1)快约 20 倍。尽管速度提升显著,机器人狗仍未成功取回沙滩球。该研究旨在评估前沿模型在物理世界中的自主能力与安全风险。
AI模型ClaudeOpus 4.7Anthropic机器人编程安全测试

推荐理由:Anthropic 让 Claude 自己写代码控制机器狗,速度比人快20倍,虽然最后没抓到球,但过程特别有意思
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月30日
04:18
04:18Fireworks AI@FireworksAI_HQ
Ramp Labs 在自家后端部署了 1 万个 AI 智能体进行安全测试,发现开源模型(Kimi K2.6 和 DeepSeek V4 Pro)在 Fireworks 上运行,能以比 GPT 5.5 低约 5 倍的 token 成本,成功发现 7 个高危漏洞。Ramp 表示如果重做,会更依赖开源模型。这为开源权重模型在安全领域的价值提供了有力证据,表明在 GPU 资源稀缺的背景下,成本和效果需要平衡。
行业开源模型安全测试智能体成本优化Ramp Labs

推荐理由:做安全测试或 AI 落地的团队,这个案例直接告诉你:开源模型在真实生产代码中能低成本挖出高危漏洞,值得在预算有限时优先尝试。
原文
精选全部日报登录