AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 983 条中筛出 58 条
全部模型产品行业论文技巧
标签:Code Arena×
6月17日
09:27
09:27IT之家(博客/媒体)
精选
智谱发布并开源 GLM-5.2 模型,支持 1M 无损上下文。在 Code Arena 盲测中取得全球可用模型第一。在多个长程任务基准上表现介于 Claude Opus 4.7 与 4.8 之间。编程基准上保持开源 SOTA,与 Claude Opus 4.8 可比。已适配华为昇腾、平头哥等国产算力平台,单位 token FLOPs 降至 2.9 倍。
AI模型GLM-5.2智谱Code Arena开源模型上下文长度

推荐理由:智谱的 GLM-5.2 开源了,1M 上下文还拿了 Code Arena 第一,编程和长任务都强,国产算力也能跑。
原文
05:29
05:29elvis@omarsar0
精选
GLM-5.2 (Max)在Code Arena: Frontend榜单中排名第二,得分比Claude Opus 4.7 (Thinking)高29分,仅落后于Fable 5。该模型在React子榜单排第2,HTML排第4,且在品牌营销、参考设计等6个子类别中均位列第一。作为开源模型,GLM-5.2大幅领先Kimi-K2.6和Minimax-M3。
AI模型GLM-5.2Code ArenaClaude Opus 4.7Fable 5编程助手

推荐理由:智谱新模型GLM-5.2 Max在代码前端评测中杀到第二,直接压过Claude Opus 4.7,开源模型里目前最强,做前端开发的可以关注。
原文
6月16日
09:32
09:32lmarena.ai@lmarena_ai
精选
Kimi-K2.7-Code是Kimi新发布的编码模型,在Code Arena: Frontend中排名第3(开源模型),整体第19。相比K2.6,该模型在Kimi Code Bench v2上提升21.8%,Program Bench提升11.0%,MLS Bench Lite提升31.5%。推理效率提升,推理token使用量降低30%。模型已通过Kimi API和Kimi Code开源提供。
AI模型Kimi-K2.7-CodeKimiCode Arena开源模型编码模型

推荐理由:Kimi新出的编码模型K2.7-Code,在Code Arena前端排名第三,比上代提升明显,推理更省token,开源可玩。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
5月27日
00:23
00:23lmarena.ai@lmarena_ai
精选83°
Qwen3.7 Max 在 Code Arena 前端编程评测中排名第4,成为榜单上排名最高的中国实验室模型,超越了 GLM-5.1,并与 Claude Opus 4.6 持平。该模型专为智能体时代设计,支持端到端编码、前端原型、多文件重构和真实调试,还能通过 MCP 集成和多智能体编排完成办公任务。在长时自主任务中,它可连续运行 35 小时,执行超过 1000 次工具调用而无需人工干预。API 已在阿里云百炼平台上线,用户也可在 Qwen Studio 体验。
AI模型Qwen3.7 MaxCode Arena前端编程智能体阿里云

推荐理由:Qwen3.7 Max 在智能体编程任务上追平了 Claude Opus 4.6,做前端开发或自动化智能体的团队值得一试,尤其是需要长时自主执行的场景。
原文
5月26日
13:43
13:43IT之家(博客/媒体)
精选
阿里旗舰模型 Qwen3.7-Max 在权威编程榜单 Code Arena 上以 1541 分排名全球第二,仅次于 Claude 系列,超越了 Claude Opus 4.6、GLM-5.1 和 Kimi K2.6。Code Arena 采用用户随机盲测,防止刷榜,评估真实代码生成、调试和重构能力。此外,该模型在 Design Arena 榜单也位列第十。这标志着国产大模型在硬核编程能力上首次进入全球第一梯队。
AI模型Qwen3.7-Max阿里千问Code Arena编程能力国产大模型

推荐理由:国产模型首次在权威编程盲测中超越 Claude Opus 4.6,做 AI 编程工具选型或关注国产大模型进展的开发者值得关注,建议直接去 Code Arena 看榜单。
原文
精选全部日报登录