全部 AI 动态 · AI 热点

6月23日

03:55

03:55

lmarena.ai@lmarena_ai

精选

Arena排行榜基于全球社区的真实任务动态更新，而非静态基准。评估流程包括内部基准测试、模型接入、社区投票、分数稳定化和公开发布。团队采用Bradley-Terry模型确保分数稳定性，并区分Expert和Hard难度以细化评估维度。视频还介绍了代码名称、身份泄露过滤及投票质量控制等机制。

技巧 Arena LMSYS 模型评测基准测试 Bradley-Terry

推荐理由：想了解AI模型评测怎么运作的？Arena团队亲自拆解从内测到上线的完整评估流程，还讲了Bradley-Terry分数如何保证公平，干货满满。

6月17日

10:40

10:40

lmarena.ai@lmarena_ai

精选

GLM-5.2 (Max) 在 Arena 榜单上整体排名第10，较之前上升4.4%。工具幻觉指标并列第1，提升1.9%。确认任务成功排第3，提升9.4%。赞比投诉排第3，提升14.9%。Bash 恢复排第16，提升1.7%；可操控性排第20，下降6.0%。

AI模型 GLM-5.2 Arena 工具幻觉任务成功率

推荐理由：GLM-5.2 (Max) 在工具幻觉和任务成功率上表现突出，综合排名上升4.4%，值得看看它在这些指标上的优势。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

12:59

12:59

lmarena.ai@lmarena_ai

83°

Arena 宣布已移除 Claude Fable 5，原因是 Anthropic 的最新公告和美国政府指令要求暂停访问。Fable 5 在 Agent、Text 和 Code Arena 三项基准中均排名第一，是 Arena 测试过的最强模型，在 Agent Arena 上以最大领先幅度超过 Opus-4.8 和 GPT-5.5。该模型在确认任务成功率和好评/投诉比两项关键信号上表现突出，但可操控性较弱。Arena 表示将在可能时恢复访问并重启社区测试。

行业 Claude Fable 5 Anthropic Arena AI安全智能体

推荐理由：最强模型被下架，原因值得关注

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月6日

03:21

03:21

lmarena.ai@lmarena_ai

Arena 平台推出全新的 Agent Mode，并已将 Mistral 3.5 模型纳入其中。该模式允许模型执行深度研究、生成报告、创建网站、调试代码等复杂任务，通过调用网页搜索、沙箱环境 bash、图像生成、文件写入等工具完成。用户可亲自测试包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 及顶级开源模型在内的前沿模型。用户的测试会话将帮助塑造 Agent Arena 排行榜，为评估智能体能力提供真实场景数据。

AI产品 Mistral 3.5 Arena Agent Mode 智能体评测模型对比

推荐理由：Arena 的 Agent Mode 让开发者能直接对比主流模型在真实复杂任务上的表现，做智能体应用选型的团队值得亲自上手测试，结果会直接影响排行榜。

6月5日

06:16

06:16

lmarena.ai@lmarena_ai

88°

Arena 平台今日正式推出 Agent Mode，允许用户测试前沿模型在真实任务中的表现，包括深度研究、生成报告、创建网站、调试代码等。该模式通过工具调用（如网页搜索、沙箱 bash、图像生成、文件写入）完成复杂任务。首批支持的模型包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 及顶级开源模型。同时，Battle Mode 投票数已突破 5000 万。

AI产品 Arena Agent Mode 模型评测 GPT-5.5 Claude Opus 4.7

推荐理由：Arena 的 Agent Mode 让开发者可以直接对比前沿模型在真实任务中的表现，做 AI 评测或选型的团队值得一试。

01:50

01:50

lmarena.ai@lmarena_ai

Arena 团队发布了关于 Agent Mode 的详细博客，包含 FAQ 和早期使用经验。该模式旨在提升 AI 智能体的自主决策与任务执行能力。博客中分享了在实际应用中遇到的挑战与解决方案。对于关注 AI 智能体开发的团队和个人，这是一份有价值的参考。

AI产品智能体 Agent Mode FAQ Arena 经验分享

推荐理由：做 AI 智能体开发的团队可以从中获取实际部署经验，FAQ 部分能直接解决常见问题，值得一读。

01:49

01:49

lmarena.ai@lmarena_ai

Arena 平台今日上线 Agent Mode，允许用户评估智能体 AI 的表现。该模式旨在为开发者提供测试和比较不同智能体系统的标准化环境。用户可通过 arena.ai/agent 直接体验。这标志着 AI 评估从单一模型转向更复杂的智能体交互场景。

AI产品智能体评估平台 Arena Agent Mode AI 测试

推荐理由：做智能体开发或选型的团队终于有了可量化的评估工具，建议直接上手试试 Agent Mode。

6月1日

11:07

11:07

lmarena.ai@lmarena_ai

精选76°

MiniMax 发布开源权重模型 M3，首次在单一模型中融合编码、智能体与多模态三大前沿能力。在 SWE-Bench Pro 上达到 59.0%，Terminal Bench 2.1 为 66.0%，并支持 1M 上下文长度。模型已上线 Arena 的文本、视觉、文档和代码竞技场，用户可投票评测。权重和技术报告将在约 10 天后公开。

AI模型 MiniMax M3 开源模型编码智能体多模态 Arena

推荐理由：MiniMax M3 把编码、智能体和多模态塞进一个开源模型，做 AI 应用和 Agent 开发的团队可以直接在 Arena 上测效果，省去自己搭环境的时间。

5月31日

16:38

16:38

AI Will@FinanceYF5

72°

Arena.ai 宣布 Grok-Imagine-Video-1.5-Preview (720p) 在 Image-to-Video Arena 中排名第一，相比前代 Grok-Imagine-Video (720p) 提升了 52 分，超越了 Seedance-2.0 和 HappyHorse 等顶级模型。这是 xAI 在视频生成领域的重要突破，展示了 Grok 系列模型的持续进化能力。该模型在图像到视频的转换质量上取得了显著进步，为 AI 视频生成树立了新标杆。

AI模型 Grok xAI 视频生成图生视频 Arena

推荐理由：xAI 的视频模型首次登顶 Arena，做 AI 视频生成或内容创作的团队值得关注这个新选择，看看它能否在效果和速度上带来惊喜。

5月27日

14:14

14:14IT之家（博客/媒体）

微软研究院发布 MAI-Image-2.5，这是其 MAI-Image 系列最强图像生成模型，在 Arena 文生图榜单升至第三。该模型重点增强了文字渲染能力，可胜任信息图、海报、包装等需要准确呈现文字的任务，同时在风格化插画、商业图像和视觉推理方面表现更稳定。用户已可在 Arena 体验，未来两周内将上线 MAI Playground 与 Foundry。

AI模型微软 MAI-Image-2.5 图像生成文字渲染 Arena

推荐理由：做设计、营销或内容创作的团队终于有了更靠谱的商用级生图工具——文字渲染和视觉推理的提升让海报、包装这类需求不再翻车，建议直接去 Arena 试效果。

11:18

11:18

lmarena.ai@lmarena_ai

MAI-Image-2.5 是一款新的图像生成模型，将于下周在 MAI Playground 和 Foundry 平台上线。目前该模型已在 Arena 上提供公开早期访问，用户可以通过 arena.ai/image 链接体验。这一发布意味着开发者可以提前试用并评估模型能力，为后续集成做准备。

AI产品 MAI-Image-2.5 图像生成 Arena 早期访问 AI 平台

推荐理由：图像生成领域又添新选择，做 AI 图像应用或内容创作的开发者可以趁早访问 Arena 体验 MAI-Image-2.5 的实际效果，抢占先机。

5月19日

12:01

12:01

Geek@geekbb

72°

阿里巴巴通义千问团队发布了 Qwen 3.7 预览版，包括 Max 和 Plus 两个版本，已在 LMSYS Arena 上线。该模型在文本和视觉任务上表现强劲，使阿里在 Arena 文本榜单升至第6、视觉榜单升至第5。官方表示完整系列模型即将发布，值得期待。

AI模型 Qwen Arena 多模态文本生成阿里

推荐理由：Qwen 3.7 预览版在 Arena 上表现亮眼，阿里排名大幅提升，做多模态或文本生成的应用开发者可以关注后续正式版发布。

11:46

11:46

阿里云 Alibaba Cloud@alibaba_cloud

72°

阿里云宣布 Qwen3.7-Max-Preview 模型已上线 Arena 平台，在文本任务中排名第6。该模型是 Qwen3.7 系列的预览版本，预计正式版将很快发布。这一进展展示了阿里云在大语言模型领域的持续投入和竞争力提升。

AI模型 Qwen3.7 阿里云大模型 Arena 文本任务

推荐理由：Qwen3.7 系列即将发布，关注国产大模型进展的开发者可以提前了解预览版表现，为后续集成做准备。

08:39

08:39

阿里通义 Qwen@Alibaba_Qwen

76°

阿里 Qwen 团队发布 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 模型，已在 Arena 平台上线。在文本 Arena 中，Qwen3.7 Max Preview 综合排名第13，阿里成为第6大实验室；数学第7、专家第9、软件与IT第9、编程第10。在视觉 Arena 中，Qwen3.7 Plus Preview 排名第16，阿里升至第5。这标志着阿里在多模态能力上的显著进步，正式版 Qwen3.7 系列即将发布。

AI模型 Qwen3.7 阿里 Arena 推理模型多模态

推荐理由：Qwen3.7 Preview 在数学和编程子项表现突出，做推理和代码任务的开发者可以关注正式版发布，值得一试。

5月16日

22:12

22:12

lmarena.ai@lmarena_ai

精选

Arena 研究人员 Guanglei Song 和 I-Hung Hsu 在视频中详细介绍了 Arena 分类排行榜背后的数据管道：从 Databricks 和 Spark 作业到可插拔标签框架，调用 LLM 对文本、图像、前端编码等领域的每次评估进行分类。这个元数据层让 Arena 数据超越排行榜排名，对研究更有用。视频还涵盖了动态并发控制处理不稳定的 LLM API、无需重建系统即可添加新标签器、以及成本控制策略（过滤、幂等性和模型选择）。

AI产品 Arena 数据管道 LLM 评估标签系统 Databricks

推荐理由：Arena 的数据管道设计解决了大规模 AI 评估元数据管理的痛点，做评测平台或数据管线的团队可以直接借鉴其可插拔标签框架和成本控制思路。