全部 AI 动态 · AI 热点

AITOP

6月17日

03:28

lmarena.ai@lmarena_ai

Agent Arena 是一个智能体性能排行榜，现已在 arena.ai/leaderboard/ag... 上线。用户可通过按开放模型或按实验室（lab）筛选来查看详细数据。该排行榜为不同智能体模型提供了直接的性能对比基准。

AI模型 Agent Arena 智能体排行榜基准测试开放模型

推荐理由：想比对比不同智能体模型？去Agent Arena排行榜，能按开放模型或实验室筛选，帮你找到合适的。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:48

Artificial Analysis@ArtificialAnlys

精选

HiDream 发布 O1-Image-1.5 模型，在 Artificial Analysis 文生图排行榜上位列第三，超越 Google 的 Nano Banana 2。该模型基于统一 Transformer（UiT）架构，将像素、文本和任务条件编码到同一共享 token 空间，无需分离文本编码器、VAE 和图像模型。它支持生成 2K 分辨率图像，质量接近 OpenAI 的 GPT Image 1.5 和 Gemini 3.1 Flash Image Preview。定价为每千张图像 80 美元，目前在 HiHarness 和 Vivago 平台可用。

AI模型文生图 HiDream 统一Transformer 排行榜 2K分辨率

推荐理由：HiDream 用统一 Transformer 架构简化了文生图流程，做图像生成或模型对比的开发者值得关注其性价比和效果。

原文

04:35

lmarena.ai@lmarena_ai

Agent Arena 发布了完整的智能体排行榜，涵盖多个 AI 模型的智能体能力评测。该排行榜通过自动化测试评估各模型在任务执行、工具调用等方面的表现，为开发者选择智能体模型提供参考。榜单数据公开可查，支持社区持续关注和对比。

AI产品智能体排行榜评测 Agent Arena 模型对比

推荐理由：做智能体开发的团队可以直接参考这份排行榜选型，省去自己评测的时间，建议点开看看各模型的具体表现。

原文

6月11日

16:53

AI Will@FinanceYF5

AI模型 Claude Fable 5 前端开发代码生成排行榜 Anthropic

推荐理由：前端开发者可以关注这个新标杆——Claude Fable 5 在 HTML 和 React 子榜全拿第一，做 UI 生成或组件开发的团队值得试试。

原文

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

03:37

lmarena.ai@lmarena_ai

83°

Anthropic 的 Claude Fable 5 模型已上线 Agent 模式，用户可在 Agent Arena 中测试其智能体能力。Agent Arena 是一个基于真实用户任务的智能体评估平台，通过数百万次实时会话衡量模型在代码编写、网页搜索、文件操作等复杂工作流中的表现。排行榜基于 30 万+任务、200 万+工具调用和 4000 万行代码构建，当前排名第一的是 OpenAI 的 GPT-5.5 (High)，Claude-Opus-4.7 (Thinking) 位列第二。评估信号包括任务成功率、可操控性、错误恢复、用户反馈和工具幻觉等。

AI产品智能体 Agent Arena Claude Fable 5 排行榜模型评估

推荐理由：想对比主流模型在真实任务中的智能体能力？Agent Arena 用 30 万+任务和 200 万+工具调用给出了量化排名，做 AI 应用选型的团队可以直接参考排行榜做决策。

原文

6月9日

01:47

lmarena.ai@lmarena_ai

精选

AI产品智能体排行榜行为信号评估 Agent Arena

推荐理由：做智能体开发和评估的团队终于有了基于真实用户行为的量化指标，比传统基准测试更贴近实际使用，建议点开看看你的智能体在这些信号上表现如何。

原文

01:46

lmarena.ai@lmarena_ai

精选

LMSYS 推出 Agent Arena，一个基于真实用户交互的智能体能力排行榜。该排行榜通过因果追踪方法，分析智能体在竞争情报、市场分析、科研等深度研究任务中的表现。排行榜依据五个行为信号（确认成功、表扬/投诉、可操控性、故障恢复、工具幻觉）动态更新。用户每次使用 Agent Mode 的会话都会影响排名，使评估更贴近实际使用场景。

AI产品智能体排行榜评估方法因果追踪 LMSYS

推荐理由：做 AI 智能体评估或选型的团队终于有了基于真实使用数据的排行榜，比传统基准测试更贴近实际效果，值得关注。

原文

6月8日

19:01

AI Will@FinanceYF5

Claude Opus 4.7 在 Android Arena 排行榜中以 1313 Elo 分排名第一，超越 OpenAI 的 GPT-5.5 和谷歌的 Gemini 3.5 Flash。Anthropic 在前十名中占据五个席位，显示出其在移动端 AI 领域的强势地位。该排行榜主要评估模型在安卓设备上的实际表现，对移动端 AI 应用开发者有重要参考价值。

AI模型 Claude Opus 4.7 Android Arena 排行榜 Anthropic GPT-5.5

推荐理由：移动端 AI 开发者可以快速了解当前安卓设备上最强的模型格局——Claude Opus 4.7 领先，Anthropic 整体优势明显，值得关注其技术路线。

原文

6月7日

00:48

lmarena.ai@lmarena_ai

精选72°

AI产品智能体排行榜因果推断评估方法 Agent Arena

推荐理由：做 AI 智能体评估的团队终于有了更科学的参考框架——五个信号覆盖了任务执行和用户体验，值得研究评测方法的开发者点开细看。

原文

6月6日

06:41

rohanpaul_ai@rohanpaul_ai

Agent Arena 发布了一个全新的智能体排行榜，不再依赖传统基准测试中的孤立问题，而是评估 AI 模型在真实用户任务中的表现，包括编写代码、构建应用、研究主题、创建文档和分析文件等。该排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码的数据，综合考量任务成功、可引导性、错误恢复、用户表扬/投诉和工具幻觉等信号。结果显示，GPT-5.5 High 以 +10.7% 的净改进率领先，Claude Opus 4.7 Thinking 和 GPT-5.4 High 紧随其后。该排行榜的核心价值在于将智能体视为工作系统，综合评估模型选择、工具使用、恢复行为和用户满意度。

AI模型智能体排行榜 GPT-5.5 Claude Opus 4.7 工具调用

推荐理由：做智能体开发和评测的团队终于有了一个贴近真实工作场景的排行榜——Agent Arena 用 30 万+ 任务和 200 万+ 工具调用数据，告诉你哪个模型在写代码、做研究、处理文档时真正靠谱，值得点开看看你的模型排第几。

原文

03:46

lmarena.ai@lmarena_ai

Text-to-Image Arena 推出了排行榜详情页，用户可以根据自己的需求筛选和查看关键数据点。该排行榜旨在帮助开发者、研究人员和创作者比较不同文本到图像生成模型的表现。用户可以通过 arena.ai/leaderboard/te... 访问并自定义筛选条件。这一工具为评估和选择图像生成模型提供了更直观、更个性化的参考。

AI产品 Text-to-Image Arena 排行榜图像生成模型对比筛选工具

推荐理由：做图像生成模型选型或对比的团队，终于有了一个可自定义筛选的排行榜，直接去 arena.ai 筛选你关心的数据点，比看零散评测高效得多。

原文

03:24

lmarena.ai@lmarena_ai

过去一个月，Image Arena 文本到图像排行榜前十中新增三款模型：Reve 2.0 以 1273 分位列第二，仅次于 GPT Image 2；微软的 MAI-Image-2.5 以 1253 分排第四；Ideogram 4.0 Quality 以 1204 分排第九。其中 Reve 2.0 和 MAI-Image-2.5 分别取代了自家前代版本，而 Ideogram 4.0 是前十中唯一开放权重的模型。这些新模型在图像生成质量上取得了显著提升，值得关注。

AI产品图像生成 Reve 2.0 MAI-Image-2.5 Ideogram 4.0 排行榜

推荐理由：图像生成领域竞争激烈，做 AI 绘画或内容创作的团队可以关注这些新晋模型，尤其是开放权重的 Ideogram 4.0 值得一试。

原文

6月5日

23:31

lmarena.ai@lmarena_ai

76°

Arena 平台推出 Agent Mode 和 Agent Arena 排行榜，用于评估 AI 智能体在真实任务中的表现。用户可以在 Agent Mode 中让模型执行深度研究、复杂 bash 操作、编写代码、创建幻灯片等任务，每次会话都会贡献到排行榜。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码，通过因果推断衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。目前排名第一的是 OpenAI 的 GPT-5.5（High），其次是 Anthropic 的 Claude-Opus-4.7（Thinking）和智谱的 GLM-5.1。

AI产品智能体评估/基准排行榜 GPT-5.5 Claude-Opus-4.7

推荐理由：做 AI 智能体开发或选型的团队终于有了可量化的评估标准——Agent Arena 用真实用户任务和因果推断排出了模型的实际能力，值得参考排行榜来选模型或优化自己的智能体。

原文

23:30

lmarena.ai@lmarena_ai

AI产品智能体排行榜评测 Agent Arena 工具幻觉

推荐理由：做智能体开发或选型的团队，可以直接用这个排行榜对比模型在成功率、可操控性等关键维度的表现，省去自己搭建评测流程的麻烦。

原文

10:00

Viking@vikingmute

网友发现了一个名为Sophon.at的AI信息聚合网站，它收集并展示了AI领域的论文、最新模型、Benchmark和排行榜，论文还支持在线直接阅读。网站还提供Feed订阅功能，方便用户追踪最新动态。Sophon一词源自《三体》中的智子，寓意智能与监控。该网站因其全面性和易用性受到关注，适合AI研究者和爱好者使用。

AI产品 AI聚合论文模型排行榜 Sophon

推荐理由：做AI研究或追踪前沿动态的人，这个网站能省去你到处找论文和模型的时间，论文直接在线看，还有排行榜和Feed订阅，建议收藏试试。

原文

01:51

lmarena.ai@lmarena_ai

Agent Arena 发布了完整的智能体排行榜，用户可以在 arena.ai 上查看各智能体的表现排名。该排行榜基于多种任务和场景对智能体进行评估，为开发者提供了选择智能体的重要参考。排行榜的发布标志着智能体评估标准化的重要一步，有助于推动智能体技术的发展。

AI产品智能体排行榜评估 Agent Arena 开发者工具

推荐理由：智能体开发者可以快速了解当前各智能体的实际表现，选择最适合自己任务的模型。

原文

6月4日

07:42

Ideogram@ideogram_ai

Ideogram 4.0 在第三方评测平台 DesignArena 的排行榜上成为全球第一的开源权重文生图模型。其性能仅次于 OpenAI 和 Google 的闭源模型，在开源模型中处于领先地位。该模型提供前沿质量、完全可定制性和数据隐私保护。这标志着开源文生图模型在质量上又迈出了一大步。

AI模型 Ideogram 4.0 开源/仓库文生图模型 DesignArena 排行榜

推荐理由：开源社区终于有了一个能接近闭源巨头（OpenAI/Google）的文生图模型，做图像生成应用或研究的团队可以直接下载权重，享受前沿质量与数据隐私。

原文

5月27日

14:02

Mustafa Suleyman@mustafasuleyman

微软 AI 团队发布了 MAI-Image-2.5 模型，在文生图排行榜上位列第三，标志着图像生成质量的又一次重大进步。该模型在细节、构图和语义理解方面表现出色，接近顶级水平。微软 CEO 穆斯塔法·苏莱曼表示，随着 Build 大会临近，团队还有更多成果即将发布。这一进展进一步巩固了微软在生成式 AI 领域的竞争力。

AI模型微软 MAI-Image-2.5 文生图排行榜生成式AI

推荐理由：文生图赛道又添猛将，MAI-Image-2.5 直接杀入前三，做设计、内容创作或 AI 应用的团队值得关注——微软 Build 大会前放出这一信号，后续可能还有大招。

原文

03:23

lmarena.ai@lmarena_ai

微软 AI 团队推出的 MAI-Image-2.5（预览版）在文生图竞技场排行榜上以 1254 分位列第三，相比前代 MAI-Image-2 提升了 72 分。此前该榜单前五名仅由 Google DeepMind 和 OpenAI 占据，微软的加入打破了这一格局。该模型在图像质量上取得了显著进步，且微软 Build 大会即将到来，预计会有更多更新。

AI模型微软 MAI-Image-2.5 文生图排行榜 AI模型

推荐理由：微软在文生图领域首次跻身顶级阵营，做图像生成或 AI 应用的开发者值得关注其后续在 Build 大会上的发布。

原文

5月21日

07:59

Recraft@recraftai

Recraft 的 V4.1 Utility Pro 模型发布仅一周，就在 Design Arena 2026 图像生成器排行榜的图形设计类别中升至第7名，Elo 评分达1243。该模型与 LumaLabsAI 的 UNI-1.1 和 Black Forest Labs 的 FLUX.2 [flex] 处于同一性能水平，使 Recraft 跻身全球前五的图像生成实验室。目前 Recraft 已有两个模型上榜，团队表示这是重大突破。用户可在 Recraft Studio 中直接体验。

AI产品图像生成 Recraft V4.1 Utility Pro Design Arena 排行榜

推荐理由：图形设计师和 AI 创作者又多了一个高性价比的图像生成选择——Recraft V4.1 Utility Pro 一周就冲进前七，性能与头部模型持平，建议试试看能不能替代你现在的工具。

原文

5月17日

01:41

berryxia@berryxia

Slides Arena 发布了基于 370 万+ 真实创作者使用场景的 Agentic Slides 排行榜，Anthropic 的 Opus 4.7 包揽前两名，智谱的 GLM 5.1 位列第三。该排行榜基于真实世界的幻灯片生成场景，强调逻辑、创意和设计感，而非实验室 benchmark。结果显示 Claude 在 Agentic 设计领域仍具领先优势，但 GLM 表现亮眼。

AI产品 GLM Opus Agentic Slides PPT设计排行榜

推荐理由：做 PPT 设计或 Agentic 内容生成的团队，这份基于 370 万真实场景的排行榜值得参考——GLM 5.2 能紧追 Opus 4.7，说明国产模型在创意密集型任务上已有竞争力，建议点开看看完整榜单。

原文

5月14日

15:02

xiaomimimo@XiaomiMiMo

73°

AI模型小米 MiMo-V2.5-Pro 开源模型排行榜编码能力

推荐理由：小米MiMo-V2.5-Pro在多个高难度榜单中超越众多闭源模型，做模型选型或关注开源生态的开发者值得关注——它证明了开源模型在核心智能和实际编码任务上已能媲美顶级闭源方案。

原文

15:02

kimi_moonshot@Kimi_Moonshot

Kimi K2.6 在 OpenRouter 的每周大语言模型排行榜中升至第一名。这一成绩反映了开发者社区对 Kimi 模型的认可和实际使用效果。Kimi 团队对开发者的支持表示感谢，并承诺将继续迭代优化。对于关注模型性能排名的开发者来说，这是一个值得关注的动态。

AI模型 Kimi K2.6 OpenRouter 排行榜大语言模型

推荐理由：Kimi K2.6 在 OpenRouter 周榜登顶，说明它在实际使用中获得了开发者认可，做模型选型或对比的团队可以关注这个新选择。

原文