美团发布LongCat-2.0，1.6T参数MoE，零英伟达依赖国产加速卡训练

精选理由

美团搞了个纯国产卡训练的1.6T MoE模型，激活参数48B，1M上下文，编程和Agent场景表现强，在SWE-bench Pro上还超过了GPT-5.5，值得编程开发者试试。

AI 摘要

美团发布LongCat-2.0，采用1.6T参数MoE架构，激活参数48B，上下文窗口1M（最大输出128K），使用5-6万张国产加速卡训练，全过程不依赖英伟达。模型在Terminal-Bench 2.1上得70.8，SWE-bench Pro 59.5（超过GPT-5.5的58.6）。其稀疏注意力与跨层索引技术支撑长上下文，并自研底层算子弥补国产芯片短板。LongCat-2.0定位Agent与编程任务，已在OpenRouter上提供预览。

AI 翻译 · 中文

shao__meng美团发布 LongCat-2.0 了，1.6T 参数 MoE 架构，激活参数 48B，上下文窗口 1M（最大输出 128K），采用 5-6 万张中国国产加速卡训练，训练推理全程零英伟达依赖。三项关键技术 1. N-gram Embedding：参数前移 embedding 层，减 MoE 路由与通信开销 2. 稀疏注意力 + 跨层索引：支撑 1M 上下文，控制计算成本 3. 底层算子自研：确定性 FAG、Scatter 重写等，弥补国…

IT之家02:55原文

查看原推