AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:Code Arena×
6月27日
13:06
13:06lmarena.ai@lmarena_ai
精选72°
GLM-5.2 (Max) 在 Code Arena 前端排行榜上获得第2名,比 Claude Opus 4.7 (Thinking) 高出 29 分。在 React 子榜单排名第2,HTML 子榜单第4。在品牌营销、数据与分析、消费产品等6个子类别中均位列第一。该模型是开源模型中对 Kimi-K2.6 和 Minimax-M3 优势最大的。在社区投票的单次前端编码测试中展示了10个对比案例。
AI模型GLM-5.2Code ArenaClaude Opus 4.8开源模型编程助手

推荐理由:GLM-5.2 在社区投票的编码竞技场上压过 Claude Opus,你可以在前端任务中试试它的单次生成效果。
原文
6月26日
01:24
01:24lmarena.ai@lmarena_ai
精选
Zai_org的GLM系列在Code Arena: Frontend基准上持续增长,GLM-4.6得分1408,GLM-5.2 (Max)达到1595,超越Opus 4.8并逼近Claude Fable 5的1665分。GLM-5.2 (Max)是该实验室最强的编码模型,在HTML/React真实任务上缩小了与前沿实验室的差距。该模型为开源发布。
AI模型GLMZai_orgCode Arena前端编码开源模型

推荐理由:Zai_org的GLM-5.2开源模型在前端编码上超过了Opus,离领先的Claude Fable只差一点,值得试试
原文
6月17日
05:29
05:29elvis@omarsar0
精选
GLM-5.2 (Max)在Code Arena: Frontend榜单中排名第二,得分比Claude Opus 4.7 (Thinking)高29分,仅落后于Fable 5。该模型在React子榜单排第2,HTML排第4,且在品牌营销、参考设计等6个子类别中均位列第一。作为开源模型,GLM-5.2大幅领先Kimi-K2.6和Minimax-M3。
AI模型GLM-5.2Code ArenaClaude Opus 4.7Fable 5编程助手

推荐理由:智谱新模型GLM-5.2 Max在代码前端评测中杀到第二,直接压过Claude Opus 4.7,开源模型里目前最强,做前端开发的可以关注。
原文
03:46
03:46lmarena.ai@lmarena_ai
76°
GLM-5.2 (Max) 在 Code Arena: Frontend 中排名第二,得分比 Claude Opus 4.7 (Thinking) 高 29 分,仅次于 Fable 5。在 Agent Arena 中排名第 10,是排名最高的开源模型,超越 Kimi-K2.6 和 Minimax-M3。在 Brand & Marketing、Reference-Based Design 等 6 个子类别中均排名第一。价格维持 $1.4/$4.4 per input/output MTokens,上下文窗口 1M。与 5.1 相比,排名从 #13 升至 #10,任务成功率和用户评价提升,但 steerability 下降 6%。
AI模型GLM-5.2Zai_orgCode ArenaAgent Arena开源模型

推荐理由:GLM-5.2 在编程和智能体任务上超越 Claude Opus 4.7,是开源模型新标杆,编程能力仅次于 Fable 5。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
09:32
09:32lmarena.ai@lmarena_ai
精选
Kimi-K2.7-Code是Kimi新发布的编码模型,在Code Arena: Frontend中排名第3(开源模型),整体第19。相比K2.6,该模型在Kimi Code Bench v2上提升21.8%,Program Bench提升11.0%,MLS Bench Lite提升31.5%。推理效率提升,推理token使用量降低30%。模型已通过Kimi API和Kimi Code开源提供。
AI模型Kimi-K2.7-CodeKimiCode Arena开源模型编码模型

推荐理由:Kimi新出的编码模型K2.7-Code,在Code Arena前端排名第三,比上代提升明显,推理更省token,开源可玩。
原文
09:32
09:32lmarena.ai@lmarena_ai
Kimi-K2.7-Code 在 Code Arena: Frontend 基准测试中排名第19位。该基准评估前端代码生成能力。作者提示 Agent Arena 的分数即将发布。
AI模型KimiK2.7-CodeCode Arena前端代码智能体

推荐理由:Kimi 的新代码模型在前端任务上排到第19,想看Agent成绩的可以蹲一下。
原文
6月14日
02:21
02:21lmarena.ai@lmarena_ai
Code Arena 前端竞技场现已支持 Kimi-K2.7-Code 及其他顶级前沿模型。用户可通过 arena.ai/code 平台直接使用这些模型进行代码生成与调试。该竞技场提供实时对比功能,帮助开发者评估不同模型在前端任务上的表现。
AI产品Kimi-K2.7-CodeCode Arena编程助手前端开发

推荐理由:Kimi新模型加入代码竞技场
原文
6月13日
23:22
23:22lmarena.ai@lmarena_ai
GLM-5.2 模型已在 Text Arena 和 Code Arena: Frontend 中可用。用户可以通过 arena.ai/agent 平台测试该模型在真实世界任务上的表现。该平台旨在评估 AI 性能的前沿。
AI模型GLM-5.2Text ArenaCode Arenaarena.ai智能体

推荐理由:试试 GLM-5.2 在真实任务中的表现
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
16:37
16:37AI Will@FinanceYF5
Claude Fable 5 在 Code Arena 前端赛道中取得第一名,大幅领先 Opus-4.8。它在 HTML 和 React 的所有子排行榜中均位列第一,并在品牌营销、参考设计、数据分析、消费产品、游戏、模拟、内容创作工具等所有子类别中排名第一。这表明 Fable 5 在前端开发领域具有显著优势,值得开发者关注。
AI模型Claude Fable 5Opus-4.8前端开发Code Arena模型评测

推荐理由:前端开发者可以放心尝试 Fable 5——它在 HTML 和 React 等关键子类别全面领先,做品牌营销、数据可视化或游戏界面的团队直接用它来提升效率。
原文
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月29日
08:02
08:02lmarena.ai@lmarena_ai
Claude Opus 4.8 在 Code Arena 前端测试中进行了实战评测,该测试专注于真实用户构建应用和网站时的智能体前端编程任务,涵盖 HTML 和 React。评测结果以视频形式展示在 YouTube 上,展示了模型在 agentic 前端编码方面的能力。Code Arena 提供了 Battle Mode 供用户自行对比测试,Opus 4.8 的详细评分即将公布。这标志着 Claude 系列在智能体编程领域的又一次重要迭代。
AI模型Claude Opus 4.8前端编程智能体Code ArenaReact

推荐理由:做前端开发的团队可以看看 Opus 4.8 在真实 agentic 任务中的表现,直接去 Arena 的 Battle Mode 试试就知道值不值得用。
原文
00:34
00:34lmarena.ai@lmarena_ai
Code Arena 新增了前端分类,涵盖智能体 Web 开发的 7 个领域。该分类基于经典机器学习方法,通过聚类提示、原型提取和迭代优化构建,覆盖了 80% 以上的数据。分析显示,品牌/营销网站和消费产品类别正在增长,GPT-5.5 和 Gemma-4-31b 在特定领域表现突出。研究还提供了雷达图作为模型选择工具,并结合价格/速度帕累托曲线进行综合评估。
AI产品Code ArenaAI 辅助开发Web 开发模型评估前端

推荐理由:做 AI 辅助 Web 开发的团队可以了解哪些模型在特定前端任务中表现最佳,以及用户实际使用趋势,建议点开看看数据洞察。
原文
5月27日
00:23
00:23lmarena.ai@lmarena_ai
精选83°
Qwen3.7 Max 在 Code Arena 前端编程评测中排名第4,成为榜单上排名最高的中国实验室模型,超越了 GLM-5.1,并与 Claude Opus 4.6 持平。该模型专为智能体时代设计,支持端到端编码、前端原型、多文件重构和真实调试,还能通过 MCP 集成和多智能体编排完成办公任务。在长时自主任务中,它可连续运行 35 小时,执行超过 1000 次工具调用而无需人工干预。API 已在阿里云百炼平台上线,用户也可在 Qwen Studio 体验。
AI模型Qwen3.7 MaxCode Arena前端编程智能体阿里云

推荐理由:Qwen3.7 Max 在智能体编程任务上追平了 Claude Opus 4.6,做前端开发或自动化智能体的团队值得一试,尤其是需要长时自主执行的场景。
原文
5月26日
15:02
15:02阿里云 Alibaba Cloud@alibaba_cloud
83°
阿里云宣布其 Qwen3.7-Max 模型在 Code Arena 评测中以 1541 分位列全球第二,仅次于 Claude。该模型专为生产环境设计,支持连续运行 35 小时任务、执行 1000 次以上工具调用,能将原本两周的项目缩短至数小时完成。这标志着国产大模型在编程领域取得重要突破,为开发者提供了高性能的替代选择。
AI模型Qwen3.7-Max编程模型Code Arena阿里云生产部署

推荐理由:Qwen3.7-Max 在编程能力上逼近 Claude,做自动化脚本或复杂项目开发的团队可以试试,能显著缩短交付周期。
原文
5月20日
03:53
03:53lmarena.ai@lmarena_ai
83°
Google DeepMind 的 Gemini 3.5 Flash 模型在 Code Arena 前端评测中取得显著进步,总分 1507,比上一代 Flash 提升 70 分,甚至超越了之前的 Pro 版本。该模型在消费产品、内容创作工具、数据与分析等子类别中全面领先,输出速度达到 Pro 版本的 2 倍以上。目前 Gemini 3.5 Flash 在 Code Arena 前端排名第 9,在 Text Arena 也位列第 9,并在其价格区间内实现了最佳性价比。
AI模型Gemini 3.5 FlashGoogle DeepMind前端编码Code Arena性价比

推荐理由:前端开发者做自动化编码任务时,Gemini 3.5 Flash 以更快的速度和更低的成本超越了 Pro 版本,值得在项目中实测对比。
原文
精选全部日报登录