03:55lmarena.ai@lmarena_ai精选Arena排行榜基于全球社区的真实任务动态更新,而非静态基准。评估流程包括内部基准测试、模型接入、社区投票、分数稳定化和公开发布。团队采用Bradley-Terry模型确保分数稳定性,并区分Expert和Hard难度以细化评估维度。视频还介绍了代码名称、身份泄露过滤及投票质量控制等机制。技巧ArenaLMSYS模型评测基准测试Bradley-Terry推荐理由:想了解AI模型评测怎么运作的?Arena团队亲自拆解从内测到上线的完整评估流程,还讲了Bradley-Terry分数如何保证公平,干货满满。原文
10:40lmarena.ai@lmarena_ai精选GLM-5.2 (Max) 在 Arena 榜单上整体排名第10,较之前上升4.4%。工具幻觉指标并列第1,提升1.9%。确认任务成功排第3,提升9.4%。赞比投诉排第3,提升14.9%。Bash 恢复排第16,提升1.7%;可操控性排第20,下降6.0%。AI模型GLM-5.2Arena工具幻觉任务成功率推荐理由:GLM-5.2 (Max) 在工具幻觉和任务成功率上表现突出,综合排名上升4.4%,值得看看它在这些指标上的优势。原文
12:59lmarena.ai@lmarena_ai83°Arena 宣布已移除 Claude Fable 5,原因是 Anthropic 的最新公告和美国政府指令要求暂停访问。Fable 5 在 Agent、Text 和 Code Arena 三项基准中均排名第一,是 Arena 测试过的最强模型,在 Agent Arena 上以最大领先幅度超过 Opus-4.8 和 GPT-5.5。该模型在确认任务成功率和好评/投诉比两项关键信号上表现突出,但可操控性较弱。Arena 表示将在可能时恢复访问并重启社区测试。行业Claude Fable 5AnthropicArenaAI安全智能体10 个信源在谈推荐理由:最强模型被下架,原因值得关注原文
03:21lmarena.ai@lmarena_aiArena 平台推出全新的 Agent Mode,并已将 Mistral 3.5 模型纳入其中。该模式允许模型执行深度研究、生成报告、创建网站、调试代码等复杂任务,通过调用网页搜索、沙箱环境 bash、图像生成、文件写入等工具完成。用户可亲自测试包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 及顶级开源模型在内的前沿模型。用户的测试会话将帮助塑造 Agent Arena 排行榜,为评估智能体能力提供真实场景数据。AI产品Mistral 3.5ArenaAgent Mode智能体评测模型对比推荐理由:Arena 的 Agent Mode 让开发者能直接对比主流模型在真实复杂任务上的表现,做智能体应用选型的团队值得亲自上手测试,结果会直接影响排行榜。原文
06:16lmarena.ai@lmarena_ai88°Arena 平台今日正式推出 Agent Mode,允许用户测试前沿模型在真实任务中的表现,包括深度研究、生成报告、创建网站、调试代码等。该模式通过工具调用(如网页搜索、沙箱 bash、图像生成、文件写入)完成复杂任务。首批支持的模型包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 及顶级开源模型。同时,Battle Mode 投票数已突破 5000 万。AI产品ArenaAgent Mode模型评测GPT-5.5Claude Opus 4.72 个信源在谈推荐理由:Arena 的 Agent Mode 让开发者可以直接对比前沿模型在真实任务中的表现,做 AI 评测或选型的团队值得一试。原文
01:50lmarena.ai@lmarena_aiArena 团队发布了关于 Agent Mode 的详细博客,包含 FAQ 和早期使用经验。该模式旨在提升 AI 智能体的自主决策与任务执行能力。博客中分享了在实际应用中遇到的挑战与解决方案。对于关注 AI 智能体开发的团队和个人,这是一份有价值的参考。AI产品智能体Agent ModeFAQArena经验分享推荐理由:做 AI 智能体开发的团队可以从中获取实际部署经验,FAQ 部分能直接解决常见问题,值得一读。原文
01:49lmarena.ai@lmarena_aiArena 平台今日上线 Agent Mode,允许用户评估智能体 AI 的表现。该模式旨在为开发者提供测试和比较不同智能体系统的标准化环境。用户可通过 arena.ai/agent 直接体验。这标志着 AI 评估从单一模型转向更复杂的智能体交互场景。AI产品智能体评估平台ArenaAgent ModeAI 测试推荐理由:做智能体开发或选型的团队终于有了可量化的评估工具,建议直接上手试试 Agent Mode。原文
11:07lmarena.ai@lmarena_ai精选76°MiniMax 发布开源权重模型 M3,首次在单一模型中融合编码、智能体与多模态三大前沿能力。在 SWE-Bench Pro 上达到 59.0%,Terminal Bench 2.1 为 66.0%,并支持 1M 上下文长度。模型已上线 Arena 的文本、视觉、文档和代码竞技场,用户可投票评测。权重和技术报告将在约 10 天后公开。AI模型MiniMaxM3开源模型编码智能体多模态Arena推荐理由:MiniMax M3 把编码、智能体和多模态塞进一个开源模型,做 AI 应用和 Agent 开发的团队可以直接在 Arena 上测效果,省去自己搭环境的时间。原文
16:38AI Will@FinanceYF572°Arena.ai 宣布 Grok-Imagine-Video-1.5-Preview (720p) 在 Image-to-Video Arena 中排名第一,相比前代 Grok-Imagine-Video (720p) 提升了 52 分,超越了 Seedance-2.0 和 HappyHorse 等顶级模型。这是 xAI 在视频生成领域的重要突破,展示了 Grok 系列模型的持续进化能力。该模型在图像到视频的转换质量上取得了显著进步,为 AI 视频生成树立了新标杆。AI模型GrokxAI视频生成图生视频Arena推荐理由:xAI 的视频模型首次登顶 Arena,做 AI 视频生成或内容创作的团队值得关注这个新选择,看看它能否在效果和速度上带来惊喜。原文
14:14IT之家(博客/媒体)微软研究院发布 MAI-Image-2.5,这是其 MAI-Image 系列最强图像生成模型,在 Arena 文生图榜单升至第三。该模型重点增强了文字渲染能力,可胜任信息图、海报、包装等需要准确呈现文字的任务,同时在风格化插画、商业图像和视觉推理方面表现更稳定。用户已可在 Arena 体验,未来两周内将上线 MAI Playground 与 Foundry。AI模型微软MAI-Image-2.5图像生成文字渲染Arena推荐理由:做设计、营销或内容创作的团队终于有了更靠谱的商用级生图工具——文字渲染和视觉推理的提升让海报、包装这类需求不再翻车,建议直接去 Arena 试效果。原文
11:18lmarena.ai@lmarena_aiMAI-Image-2.5 是一款新的图像生成模型,将于下周在 MAI Playground 和 Foundry 平台上线。目前该模型已在 Arena 上提供公开早期访问,用户可以通过 arena.ai/image 链接体验。这一发布意味着开发者可以提前试用并评估模型能力,为后续集成做准备。AI产品MAI-Image-2.5图像生成Arena早期访问AI 平台推荐理由:图像生成领域又添新选择,做 AI 图像应用或内容创作的开发者可以趁早访问 Arena 体验 MAI-Image-2.5 的实际效果,抢占先机。原文
12:01Geek@geekbb72°阿里巴巴通义千问团队发布了 Qwen 3.7 预览版,包括 Max 和 Plus 两个版本,已在 LMSYS Arena 上线。该模型在文本和视觉任务上表现强劲,使阿里在 Arena 文本榜单升至第6、视觉榜单升至第5。官方表示完整系列模型即将发布,值得期待。AI模型QwenArena多模态文本生成阿里推荐理由:Qwen 3.7 预览版在 Arena 上表现亮眼,阿里排名大幅提升,做多模态或文本生成的应用开发者可以关注后续正式版发布。原文
11:46阿里云 Alibaba Cloud@alibaba_cloud72°阿里云宣布 Qwen3.7-Max-Preview 模型已上线 Arena 平台,在文本任务中排名第6。该模型是 Qwen3.7 系列的预览版本,预计正式版将很快发布。这一进展展示了阿里云在大语言模型领域的持续投入和竞争力提升。AI模型Qwen3.7阿里云大模型Arena文本任务推荐理由:Qwen3.7 系列即将发布,关注国产大模型进展的开发者可以提前了解预览版表现,为后续集成做准备。原文
08:39阿里通义 Qwen@Alibaba_Qwen76°阿里 Qwen 团队发布 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 模型,已在 Arena 平台上线。在文本 Arena 中,Qwen3.7 Max Preview 综合排名第13,阿里成为第6大实验室;数学第7、专家第9、软件与IT第9、编程第10。在视觉 Arena 中,Qwen3.7 Plus Preview 排名第16,阿里升至第5。这标志着阿里在多模态能力上的显著进步,正式版 Qwen3.7 系列即将发布。AI模型Qwen3.7阿里Arena推理模型多模态推荐理由:Qwen3.7 Preview 在数学和编程子项表现突出,做推理和代码任务的开发者可以关注正式版发布,值得一试。原文
22:12lmarena.ai@lmarena_ai精选Arena 研究人员 Guanglei Song 和 I-Hung Hsu 在视频中详细介绍了 Arena 分类排行榜背后的数据管道:从 Databricks 和 Spark 作业到可插拔标签框架,调用 LLM 对文本、图像、前端编码等领域的每次评估进行分类。这个元数据层让 Arena 数据超越排行榜排名,对研究更有用。视频还涵盖了动态并发控制处理不稳定的 LLM API、无需重建系统即可添加新标签器、以及成本控制策略(过滤、幂等性和模型选择)。AI产品Arena数据管道LLM 评估标签系统Databricks推荐理由:Arena 的数据管道设计解决了大规模 AI 评估元数据管理的痛点,做评测平台或数据管线的团队可以直接借鉴其可插拔标签框架和成本控制思路。原文