全部 AI 动态 · AI 热点

6月23日

20:18

SiliconFlowAI@siliconflowai

SiliconFlow 对 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 进行了同提示词测试。结果显示 GLM-5.2 在性能上逼近 Opus 4.8，同时输入成本仅为 Opus 的约 1/3.6，输出成本为约 1/5.7。这意味着用户可以在 SiliconFlow 平台上以大幅降低的成本获得接近 Opus 级别的前端生成能力。

AI模型 GLM-5.2 Opus 4.8 SiliconFlow 推理模型模型对比

推荐理由：SiliconFlow 测了 GLM-5.2，性能跟 Opus 4.8 差不多，但输入输出成本都低了好几倍，想省钱的可以试试。

原文

6月21日

17:54

shao__meng@shao__meng

社交媒体上发起LLM对比投票，比较GLM-5.2和Gemini 3.5 Flash。投票结果倾向GLM-5.2，用户认为Gemini 3.5 Flash表现不佳。评论指出Google DeepMind自Gemini 3.0多模态发布后缺乏亮眼进展。讨论焦点集中在国产模型与Google模型的性能差距。

AI模型 GLM-5.2 Gemini 3.5 Flash Google DeepMind 模型对比推理模型

推荐理由：看看大家投票选GLM-5.2还是Gemini 3.5 Flash，很多人觉得Gemini近期的模型不太能打。

原文

6月18日

12:50

AI Will@FinanceYF5

Min Choi发布了一段对比视频，展示3年前Modelscope与现在Grok Imagine 1.5的图像生成结果。Grok Imagine 1.5生成的图像在细节和真实感上明显优于Modelscope。视频直观呈现了AI图像模型在三年间的视觉进步。

AI模型 Grok Grok Imagine 1.5 Modelscope 图像生成模型对比

推荐理由：看看Grok Imagine 1.5比三年前的Modelscope强多少，一段视频就能看清差距。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

04:35

lmarena.ai@lmarena_ai

Agent Arena 发布了完整的智能体排行榜，涵盖多个 AI 模型的智能体能力评测。该排行榜通过自动化测试评估各模型在任务执行、工具调用等方面的表现，为开发者选择智能体模型提供参考。榜单数据公开可查，支持社区持续关注和对比。

AI产品智能体排行榜评测 Agent Arena 模型对比

推荐理由：做智能体开发的团队可以直接参考这份排行榜选型，省去自己评测的时间，建议点开看看各模型的具体表现。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

22:20

berryxia@berryxia

一条推文对比了 Fable 5、Opus 4.8、Gemini 3.1 Pro 和 GPT 5.5 四款模型，指出只有 Google 还在使用去年的模型。这反映了当前 AI 模型迭代速度的差异，Google 的 Gemini 3.1 Pro 相对落后于其他厂商的新模型。

AI模型模型对比 Fable 5 Opus 4.8 Gemini 3.1 Pro GPT 5.5

推荐理由：关注模型迭代节奏的开发者可以快速了解各厂商最新进展，Google 用户会意识到其模型可能落后了。

原文

12:58

AI Will@FinanceYF5

一条推特展示了Fable 5、Opus 4.8、GPT-5.5 Standard和GPT-5.5 Pro四个模型在相同Prompt下生成纽约天际线图像的结果对比。@aipulseda1ly 称这是目前见过最好的结果，差距肉眼可见。该对比直观反映了各模型在图像生成质量上的差异，对关注AI图像生成能力的用户有参考价值。

AI模型 Fable 5 Opus 4.8 GPT-5.5 图像生成模型对比

推荐理由：四个主流模型同Prompt出图对比，做AI绘画或模型评测的可以直接看结果，省去自己跑实验的时间。

原文

11:54

AI Will@FinanceYF5

一条推文展示了 Fable 5 和 Opus 4.8 在相同 prompt 下生成的 5000 个天体太空模拟结果对比。两者在模拟的细节、真实感和物理准确性上存在显著差异，Fable 5 的表现明显优于 Opus 4.8。该对比直观反映了当前 AI 模型在复杂物理场景生成能力上的差距，对关注 AI 生成内容质量和模型选型的开发者有直接参考价值。

AI模型 Fable 5 Opus 4.8 太空模拟模型对比物理模拟

推荐理由：做 AI 生成或物理模拟的开发者，这个对比能帮你快速判断哪个模型更适合复杂场景，值得点开看差距有多大。

原文

6月8日

00:44

宝玉@dotey

用户 @ysober 在 X 上分享实测结果：使用 Claude 配合 Qwen3.7-Max 模型，总花费不到 10 元人民币，效果优于 GPT5.5，略低于 Opus4.8。该测试展示了低成本下通过模型组合获得高性能的可行性，对预算有限的开发者和团队有参考价值。Qwen3.7-Max 作为阿里通义千问的最新模型，在性价比上表现突出。

AI模型 Qwen3.7-Max Claude GPT5.5 Opus4.8 模型对比

推荐理由：不到 10 元就能跑出接近 Opus4.8 的效果，做 AI 应用开发的团队值得关注这个低成本高性价比的模型组合方案。

原文

6月6日

03:46

lmarena.ai@lmarena_ai

Text-to-Image Arena 推出了排行榜详情页，用户可以根据自己的需求筛选和查看关键数据点。该排行榜旨在帮助开发者、研究人员和创作者比较不同文本到图像生成模型的表现。用户可以通过 arena.ai/leaderboard/te... 访问并自定义筛选条件。这一工具为评估和选择图像生成模型提供了更直观、更个性化的参考。

AI产品 Text-to-Image Arena 排行榜图像生成模型对比筛选工具

推荐理由：做图像生成模型选型或对比的团队，终于有了一个可自定义筛选的排行榜，直接去 arena.ai 筛选你关心的数据点，比看零散评测高效得多。

原文

03:21

lmarena.ai@lmarena_ai

Arena 平台推出全新的 Agent Mode，并已将 Mistral 3.5 模型纳入其中。该模式允许模型执行深度研究、生成报告、创建网站、调试代码等复杂任务，通过调用网页搜索、沙箱环境 bash、图像生成、文件写入等工具完成。用户可亲自测试包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 及顶级开源模型在内的前沿模型。用户的测试会话将帮助塑造 Agent Arena 排行榜，为评估智能体能力提供真实场景数据。

AI产品 Mistral 3.5 Arena Agent Mode 智能体评测模型对比

推荐理由：Arena 的 Agent Mode 让开发者能直接对比主流模型在真实复杂任务上的表现，做智能体应用选型的团队值得亲自上手测试，结果会直接影响排行榜。

原文

6月4日

14:42

宝玉@dotey

开发者 @dotey 在 X 上反馈，Codex GPT-5.5 在开发 Mac 应用时表现不如 Claude Opus 4.8，认为 Opus 更擅长此类任务。另有用户 @jesselaunz 称 Codex 突然降智，原本计划跑 2 天的目标 20 分钟就交付，但评分仅 5/10。这些反馈表明不同模型在特定开发场景下存在显著差异，开发者需根据任务类型选择合适的模型。

AI产品 Codex GPT-5.5 Claude Opus 4.8 Mac 开发模型对比

推荐理由：做 Mac 应用开发的团队注意了——实测表明 Codex GPT-5.5 在特定场景下可能不如 Claude Opus 4.8，选模型前建议先看任务类型，避免踩坑。

原文

6月2日

10:30

shao__meng@shao__meng

Claude Opus 4.8 在基准测试、诚实度和长任务处理上优于 4.7，但作者认为这种进步对用户来说并不构成真正的改变，只是 4.7 的升级版。对于已经在用 Opus 4.7 的用户，切换到 4.8 是自然的选择，但不会吸引 GPT-5.5 或 DeepSeek 的用户迁移。作者指出，除非 Opus 5 有重大突破，否则难以撼动现有格局。

AI模型 Claude Opus 4.8 模型对比升级 Benchmark 用户迁移

推荐理由：如果你在用 Opus 4.7，升级到 4.8 是顺理成章的事；但如果你是 GPT 或 DeepSeek 用户，这次更新不值得你切换。做模型选型的团队可以看看这篇冷静分析，避免被 Benchmark 数字带偏。

原文

6月1日

21:50

Decoder@Maximilian Schreiner

基准测试平台 Artificial Analysis 显示，Nvidia 的 Nemotron 3 Ultra 是目前美国最强大的开源 AI 模型，在多项指标上超越此前领先的 Llama 3 等模型。然而，该模型在整体性能上仍落后于中国开源模型如 DeepSeek 和 Qwen，表明中国在开源 AI 领域的领先地位依然稳固。这一进展凸显了美国在开源模型竞争中的追赶态势，但中国模型在推理、多模态等关键能力上仍保持优势。

AI模型 Nvidia Nemotron 3 Ultra 开源模型模型对比中国领先

推荐理由：Nvidia 终于拿出了美国最强的开源模型，但中国开源模型依然领先，做模型选型和对比的开发者值得关注这一格局变化。

原文

5月30日

16:32

Viking@vikingmute

一位开发者分享了其每次代码审查后生成的产物结构：每个功能一个文件夹，每个模型一份报告（如Claude.md、Codex、Composer等）。有趣的是，DeepSeek Pro在报告中自称是Claude。报告包含问题汇总、修复计划、状态跟踪和验证结果，形成完整的审查闭环。这种结构化方法有助于系统化追踪AI模型在代码审查中的表现和修复进展。

AI产品代码审查模型对比工作流 Claude DeepSeek

推荐理由：做AI代码审查或模型对比的团队，可以直接参考这套文件夹+报告结构来标准化工作流，省去重复整理的时间。

原文

13:34

Cohere@cohere

Cohere 宣布其 Command A+ 模型在机器翻译方面取得新突破，性能显著超越开源对手如 Mistral Medium 3.5、DeepSeek 和 OpenAI 的 gpt-oss，甚至优于专业翻译系统 Google Translate。与 RWS 合作开发的系统表现更佳，但 A+ 已拉开明显差距。这标志着 Cohere 在翻译领域的竞争力大幅提升，尤其对需要高质量翻译的企业用户意义重大。

AI模型 Cohere Command A+机器翻译模型对比企业级AI

推荐理由：做多语言内容或翻译服务的团队值得关注——Cohere 的 A+ 模型在翻译质量上已经超过主流开源和专有方案，可以直接用于生产环境，省去自研或调优的麻烦。

原文

12:22

Notion@NotionHQ

72°

Notion 宣布其自定义智能体功能现已支持 Gemini 3.5 Flash 模型。用户可以在创建智能体时选择该模型，并悬停对比不同模型的速度、智能水平和成本。这为 Notion 用户提供了更多模型选择，尤其适合需要快速响应的自动化场景。Gemini 3.5 Flash 以低延迟和高性价比著称，有望提升 Notion 智能体的实用性和效率。

AI产品 Notion Gemini 3.5 Flash 自定义智能体模型对比自动化

推荐理由：Notion 用户现在可以用 Gemini 3.5 Flash 打造更快的自定义智能体，做自动化工作流的团队值得一试，成本更低、响应更快。

原文

5月29日

13:00

arXiv: Anthropic@Galip Tolga Erdem

精选72°

这是首个大规模实证研究，测量了LLM在重复渗透测试中的行为一致性。研究对4个模型（Claude Sonnet 4、Gemini 2.5 Flash-Lite、GPT-4o-mini、qwen2.5-coder:14b）各进行100次攻击，目标为固定蜜罐（含OWASP Juice Shop等脆弱服务）。结果显示，Gemini 2.5 Flash-Lite成功率最高（85%），Claude因API故障中断39次但仍达61%，qwen仅25%且主要因过早完成失败。模型失败模式各异：Claude受API截断影响，qwen过早终止，GPT-4o-mini耗尽迭代预算。跨模型成功率差异显著（p<0.001），且首次利用时间集中在15-30秒内。

论文 LLM安全渗透测试攻击一致性模型对比红队测试

推荐理由：这项研究揭示了LLM作为攻击者的行为规律和可靠性差异，做AI安全评估或红队测试的团队值得关注——它告诉你不同模型在真实攻击场景下的稳定性和失败模式，直接指导模型选型和防御策略。

原文

10:12

lmarena.ai@lmarena_ai

精选

Arena 的 AI 能力负责人 @petergostev 对 Anthropic 最新发布的 Claude Opus 4.8 进行了超过 200 项 Code Arena 前端测试，涵盖思考与非思考模式，并与过去的 Opus 变体、Gemini 3.1 Pro、3.5 Flash 和 GLM 5.1 进行对比。测试内容包括 3D 场景生成、游戏开发和前端 UI 设计等多个维度。结果已发布在 Arena 的线程中，供开发者参考和讨论。

AI模型 Claude Opus 4.8 前端测试模型对比 Gemini 3.1 Pro GLM 5.1

推荐理由：前端开发者可以直观看到 Claude Opus 4.8 在复杂 UI 和游戏生成上的实际表现，对比多个主流模型后能更精准选型，值得点开线程看具体案例。

原文

5月23日

16:21

@atomic_chat_hq@atomic_chat_hq

在游戏开发竞赛中，Deepseek V4 Pro 与 GPT-5.5 被要求制作卡丁车游戏。GPT-5.5 以 0.33 美元成本、25 tok/s 速度生成 10,580 tokens，耗时 7 分钟，最终游戏质量、视觉效果和创意方向明显更优。Deepseek V4 Pro 成本仅 0.07656 美元，便宜 4.3 倍，生成 18,869 tokens（近 2 倍），但游戏在图形、视觉打磨和创意执行上较弱。结论是尽管 Deepseek 定位为强编码模型，在游戏开发测试中仍远落后于 GPT-5.5。

AI模型 Deepseek V4 Pro GPT-5.5 游戏开发模型对比成本效率

推荐理由：想用 AI 做游戏开发的团队，这个对比直接告诉你：省钱不一定省心——Deepseek 便宜但质量差一截，GPT-5.5 贵但成品更靠谱，建议根据预算和品质要求选模型。

原文

16:19

@atomic_chat_hq@atomic_chat_hq

精选76°

在编写自训练俄罗斯方块机器人的真实智能体任务中，Qwen 3.7-Max 以 56% 的改进幅度、仅 1.32 美元的训练成本，全面超越 Claude Opus 4.7（+28%，12.15 美元）和 GPT-5.5（+7%，2.85 美元）。测试中每个模型可读取自身代码、运行基准测试并迭代重写 10 轮。Qwen 3.7-Max 在性能提升和成本效率上均占优，成本仅为 Claude 的 1/9、GPT 的 1/2。这表明 Qwen Max 在长智能体循环任务中具有显著优势。

AI模型 Qwen 3.7-Max 智能体模型对比成本效率自迭代

推荐理由：做智能体开发或自动化任务的团队，Qwen 3.7-Max 在成本与性能上碾压对手，值得在类似场景中直接替换测试。

原文

5月22日

22:14

Gary Marcus@GaryMarcus

Gary Marcus 在 X 上承认自己之前对 OpenAI 新模型 Erdos 的成本估算有误。他根据新信息表示，OpenAI 在 Erdos 上的花费可能被低估，但 GPT-5.5 也能实现类似功能。Marcus 还指出，开发模型的成本以及许多未成功的问题可能被忽略。这一讨论反映了 AI 模型成本估算的复杂性，以及不同模型间性能对比的难度。

行业 OpenAI GPT-5.5 Erdos 成本估算模型对比

推荐理由：Marcus 的公开认错揭示了 AI 模型成本估算的陷阱，做 AI 投资或技术评估的团队值得关注，避免被表面数据误导。

原文

5月21日

08:01

AI Breakfast@AiBreakfast

据 AI Breakfast 报道，Google 的 Gemini 3.5 Flash 模型在多个关键基准测试中超越了 Anthropic 的 Opus 4.7，包括终端基准、MCP Atlas、OSWorld 验证、金融代理、CharXiv 推理等。更重要的是，Gemini 3.5 Flash 的成本仅为 Opus 4.7 的一小部分。这一结果挑战了“贵即更好”的认知，表明轻量级模型在特定任务上可能更具性价比。对于预算有限但追求高性能的开发者或团队，这是一个值得关注的信号。

AI模型 Gemini 3.5 Flash Opus 4.7 基准测试性价比模型对比

推荐理由：轻量模型在多个实际任务上反超旗舰模型，做 AI 应用选型的团队可以直接参考这份基准对比来优化成本与效果。

原文

07:46

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 与 NotteCore 合作，在多个前沿模型上运行了 720 个浏览器代理任务。结果显示，某个基线模型在约 1/5 的调用中产生格式错误输出，导致多步工作流中频繁重试。而 Kimi K2.5、GLM-5 和 MiniMax M2.5 在 Fireworks 上运行时，重试率近乎为零，且随着任务步骤增加，延迟保持稳定。这一差异在生产级代理系统中直接体现为成本、延迟和可靠性的分化。完整报告已发布。

AI产品浏览器代理模型对比重试率 Kimi K2.5 GLM-5 MiniMax M2.5 Fireworks

推荐理由：做浏览器自动化或代理系统的团队，这个对比直接告诉你模型选择如何影响生产环境的成本和稳定性——Kimi/GLM/MiniMax 的低重试率值得关注。

原文

5月19日

10:49

10:49Simon Willison’s Weblog（博客/媒体）

精选

Simon Willison 在 PyCon US 2026 上用五分钟闪电演讲总结了 LLM 领域过去六个月的发展。他重点介绍了 2025 年 11 月的“拐点”，当时最佳模型在三大提供商间易手五次，最终 Claude Opus 4.5 胜出。更关键的是，编码代理从“偶尔可用”跨越到“日常可用”，显著减少了人工修复错误的时间。他还分享了个人项目 micro-javascript，一个用 Python 实现的 JavaScript 解释器，展示了多语言嵌套运行的技术趣味。演讲通过“鹈鹕骑自行车”SVG 测试直观对比模型能力，强调编码代理的进步是最大亮点。

行业 LLM 编码代理模型对比 PyCon Simon Willison

推荐理由：Simon 用五分钟讲清了 LLM 过去半年的关键转折——编码代理从玩具变成生产力工具，做 AI 开发或重度使用编程助手的团队值得花五分钟了解这个趋势，看完会对模型选择和工具策略有更清晰的判断。

原文

5月18日

20:06

Recraft@recraftai

Recraft AI 发布 V4.1 模型，并与 GPT Image 2 High 进行直接对比。同一提示词下，两个模型在氛围、构图、色彩处理和细节表现上差异显著。Recraft V4.1 在艺术风格和细节丰富度上表现突出，而 GPT Image 2 High 更注重写实和一致性。该对比展示了不同 AI 图像生成模型在创意输出上的独特取向，对设计师和内容创作者选择工具具有参考价值。更多对比结果可在 Recraft 博客中查看。

AI产品 Recraft V4.1 GPT Image 2 High 图像生成模型对比创意工具

推荐理由：做视觉设计和内容创作的团队，选模型前先看对比——同一提示词下风格差异巨大，直接帮你判断哪个更适合你的项目。

原文

5月16日

19:31

Recraft@recraftai

Recraft AI 在 X 上发布了其 V4.1 模型与 Midjourney V8.1 的对比评测。使用完全相同的提示词，两个模型在构图、情绪、纹理和细节上展现出截然不同的创意选择。该对比展示了当前顶级 AI 图像生成模型在风格和美学上的差异，帮助用户理解不同模型的擅长领域。更多与其他模型的对比结果可在 Recraft 的博客中查看。

AI产品 Recraft V4.1 Midjourney V8.1 图像生成模型对比创意设计

推荐理由：做 AI 视觉设计或内容创作的团队，可以通过这个对比快速判断哪个模型更符合自己的审美偏好，值得点开看看差异。

原文