09:25Clement Delangue@ClementDelangueAA-Briefcase基准测试评估模型在长期知识工作项目中的表现,任务成本差异达800倍。Claude Fable 5以1587 Elo领先,但平均任务成本31美元;Claude Opus 4.8得分1356,成本10.40美元。DeepSeek V4 Flash仅需约0.04美元,性价比最高。GLM-5.2得分1266,成本2.40美元,得分仅低Claude Opus 4.8不到90 Elo,成本不到其25%。AI模型Claude Fable 5DeepSeek V4 FlashGLM-5.2AA-Briefcase推理模型10 个信源在谈推荐理由:新基准AA-Briefcase测长期项目,Claude Fable 5最强但贵,DeepSeek V4 Flash极便宜,GLM-5.2性价比超赞。原文
12:25IT之家(博客/媒体)谷歌 6 月 15 日更新 Android Bench 榜单,测评 AI 模型在安卓开发任务中的表现。OpenAI 的 GPT-5.5 以 74 分排名第一,GPT-5.4 以 72.4 分第二,谷歌 Gemini 3.1 Pro Preview 同分第三。谷歌自家 Gemini 3.5 Flash 仅得 63.7 分,排第六,且单次运行平均成本 147.1 美元,为榜单最贵。DeepSeek V4 Flash 得分 52.7 排第 12,成本仅 8.4 美元,Gemini 3.5 Flash 成本是其 17.5 倍。AI模型Android BenchGemini 3.5 FlashGPT-5.5DeepSeek V4 Flash开发辅助10 个信源在谈推荐理由:谷歌新榜单实测,Gemini 3.5 Flash 在安卓开发任务中得分低、成本高,性价比远不如 DeepSeek V4 Flash。原文
14:00OpenRouter@OpenRouterAI精选DeepSeek V4 Flash 在 OpenRouter 每周排行榜中登顶,获得 1196 次浏览和 38 个点赞。该模型是 DeepSeek V4 的轻量版本,表现出色。OpenRouter 排行榜基于用户使用量和反馈,V4 Flash 的领先显示了其在开发者中的受欢迎程度。AI模型DeepSeek V4 FlashDeepSeekOpenRouter推理模型推荐理由:DeepSeek新模型登顶社区排行榜原文