精选理由
美团搞了个纯国产卡训练的1.6T MoE模型,激活参数48B,1M上下文,编程和Agent场景表现强,在SWE-bench Pro上还超过了GPT-5.5,值得编程开发者试试。
美团发布LongCat-2.0,采用1.6T参数MoE架构,激活参数48B,上下文窗口1M(最大输出128K),使用5-6万张国产加速卡训练,全过程不依赖英伟达。模型在Terminal-Bench 2.1上得70.8,SWE-bench Pro 59.5(超过GPT-5.5的58.6)。其稀疏注意力与跨层索引技术支撑长上下文,并自研底层算子弥补国产芯片短板。LongCat-2.0定位Agent与编程任务,已在OpenRouter上提供预览。
AI 翻译 · 中文
美团发布LongCat-2.0,采用1.6T参数MoE架构,激活参数48B,上下文窗口1M(最大输出128K),使用5-6万张国产加速卡训练,全过程不依赖英伟达。模型在Terminal-Bench 2.1上得70.8,SWE-bench Pro 59.5(超过GPT-5.5的58.6)。其稀疏注意力与跨层索引技术支撑长上下文,并自研底层算子弥补国产芯片短板。LongCat-2.0定位Agent与编程任务,已在OpenRouter上提供预览。
美团发布 LongCat-2.0 了,1.6T 参数 MoE 架构,激活参数 48B,上下文窗口 1M(最大输出 128K),采用 5-6 万张中国国产加速卡训练,训练推理全程零英伟达依赖。 三项关键技术 1. N-gram Embedding:参数前移 embedding 层,减 MoE 路由与通信开销 2. 稀疏注意力 + 跨层索引:支撑 1M 上下文,控制计算成本 3. 底层算子自研:确定性 FAG、Scatter 重写等,弥补国…
- IT之家02:55原文