全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

16:04

16:04IT之家（博客/媒体）

精选

安全研究员Kasra Rahjerdi搭建了一个故意留有漏洞的图书评论APK，测试多款AI大语言模型的安全推理能力。模型需解包APK并识别暴露的Firebase凭据以绕过API访问数据库。每个模型预算10美元，限时2小时，总花费1500美元。结果显示，GPT-5.5在10次运行中成功7次，每次成功成本9.46美元；DeepSeek V4 Pro成功3次，但每次成功成本仅0.62美元，约为GPT-5.5的十五分之一。Gemini多次在任务早期拒绝继续，而Claude Sonnet 4.6和Opus 4.8各成功2次。该测试揭示了不同模型在安全漏洞利用任务中的性能与成本差异，对批量运行安全工具的团队具有现实意义。

AI模型安全测试 GPT-5.5 DeepSeek V4 Pro 漏洞利用成本对比

推荐理由：安全团队和AI开发者可以直观看到不同模型在真实漏洞利用任务中的性价比——GPT-5.5最可靠但贵，DeepSeek V4 Pro成本极低但成功率有限，做自动化安全测试的团队值得参考这个对比。

5月29日

08:37

08:37IT之家（博客/媒体）

83°

Kilo Code 对 xAI 的 AI 编程智能体 Grok Build 0.1 进行了实战测试，要求其用 TypeScript、Bun 和 SQLite 构建一个 webhook 交付服务。整个开发过程零工具调用失败，总成本仅约 1.65 美元（约 11.2 元人民币），低于 GPT-5.5 和 Claude Opus 4.7 等模型。Grok Build 在编码前先搜索了 Stripe 签名格式、GitHub 重试行为等规范，并主动提出 9 个澄清问题。马斯克转发该测试结果，称赞其物超所值。这表明 Grok Build 在复杂工程任务中兼具高效性和经济性，对开发者有吸引力。

AI产品 Grok Build AI编程智能体 IDE工具成本对比 xAI

推荐理由：Grok Build 0.1 用 1.65 美元完成了一个 webhook 服务开发，成本远低于同类模型，做全栈或自动化开发的团队值得关注这个新选择。