13:00量子位@鱼羊英伟达开源了一款新的MoE加速库,只需一行import即可集成到Transformers v5中。微调速度提升3.7倍。该库支持专家并行技术,并整合了DeepEP和TransformerEngine组件。用户无需修改现有代码即可获取显著性能提升。AI模型英伟达MoETransformers v5DeepEP开源模型推荐理由:想让你HuggingFace上的MoE模型微调更快?英伟达这个新库一行代码就能加速3.7倍,直接用。原文
15:27marktechpost@Asif Razzaq精选Prime Intellect 发布了 prime-rl 0.6.0,这是一个用于异步强化学习的开源框架,支持训练万亿参数规模的 Mixture-of-Experts (MoE) 模型。该框架在 SWE 编程任务上训练了 GLM-5 模型,序列长度达到 131k,单步训练时间低于 5 分钟,并实现了 256 个并行 rollout。所有这些性能建立在 28 个 NVIDIA H200 节点上,优化技术包括 FP8 推理、Wide Expert Parallelism、预填充/解码分离以及 3-D 并行(FSDP、EP、CP)。AI产品prime-rlGLM-5Prime Intellect强化学习MoE8 个信源在谈推荐理由:Prime Intellect 新开源的 prime-rl 0.6.0,专为训练万亿参数 MoE 模型的强化学习设计。他们在 SWE 任务上用 GLM-5 跑到 131k 序列长度,速度还很快,想了解大规模 RL 训练优化的可以看看。原文
02:54marktechpost@Asif Razzaq76°Google DeepMind 推出 DiffusionGemma,一款 26B 参数的混合专家(MoE)开源模型,采用文本扩散技术,在 GPU 上生成速度最高提升 4 倍。该模型在保持生成质量的同时,显著降低了推理延迟,适合对实时性要求高的场景。DiffusionGemma 已开源,开发者可直接下载使用。AI模型DiffusionGemmaGoogle DeepMindMoE文本扩散开源模型推荐理由:做文本生成或实时 AI 应用的开发者,这个模型用扩散方法把生成速度翻了 4 倍,值得下载实测。原文
16:05marktechpost@Asif Razzaq精选JetBrains 发布了 Mellum2,一个 12B 参数的混合专家(MoE)模型,基于 Apache 2.0 开源协议。该模型在 10.6 万亿 token 上训练,专为多模型 AI 流水线中的快速专用任务优化,如代码补全、重构建议等。Mellum2 旨在平衡性能与效率,适合集成到开发工具中,提升开发者体验。其 MoE 架构使其在保持较小激活参数的同时,实现高精度输出。AI模型JetBrainsMellum2MoE代码补全开源/仓库推荐理由:JetBrains 把 MoE 模型塞进开发者工具链,做 IDE 插件或代码分析工具的团队可以直接用 Mellum2 替换通用模型,提升响应速度且不牺牲质量。原文
00:33Hugging Face: Blog(博客/媒体)精选72°JetBrains 发布了 Mellum2,一个 12B 参数的混合专家(MoE)模型,专为代码生成和软件工程任务优化。该模型在 HumanEval 和 SWE-bench 等基准测试中表现优异,超越了同等规模的模型。Mellum2 基于 JetBrains 的代码数据训练,旨在为开发者提供更高效、更准确的代码补全和生成能力。该模型现已开源,可在 Hugging Face 上获取。AI模型JetBrainsMellum2MoE代码生成开源/仓库推荐理由:JetBrains 的 Mellum2 为 IDE 内代码生成带来了更精准的 MoE 方案,用 JetBrains 全家桶的开发者可以直接在 Hugging Face 上体验,看看它能否提升你的编码效率。原文
05:27marktechpost@Asif RazzaqStepFun 发布了 Step 3.7 Flash,一个 198B 参数的 MoE(混合专家)视觉语言模型,原生支持视觉理解、256k 上下文窗口和 Advisor Mode(顾问模式)。该模型针对编程智能体和搜索工作流进行了优化,能够在复杂任务中提供高效推理和代码生成能力。Step 3.7 Flash 的发布标志着多模态大模型在专业领域应用的重要进展,尤其适合需要长上下文理解和视觉-语言联合推理的场景。AI模型Step 3.7 FlashMoE视觉语言模型编程智能体搜索工作流推荐理由:做 AI 编程智能体或搜索应用的团队可以直接用上 256k 上下文和视觉能力,Step 3.7 Flash 的 Advisor Mode 能显著提升复杂任务处理效率,值得关注。原文
11:17pandaily@contact@pandaily.com (Pandaily)78°Stepfun 开源了 Step 3.7 Flash,这是一个 196B 参数的稀疏 MoE 大语言模型,专为智能体工作流优化。该模型推理速度达 400 tokens/s,并原生支持工具调用,能高效执行复杂任务。开源此举旨在推动智能体生态发展,降低开发者构建自主系统的门槛。Step 3.7 Flash 在多项基准测试中表现优异,尤其适合需要快速响应和工具集成的场景。AI模型Step 3.7 FlashMoE智能体工具调用开源推荐理由:做智能体开发的团队终于有了一个原生支持工具调用且速度极快的开源模型——400 tokens/s 的推理速度能显著提升任务执行效率,建议直接上手测试。原文
07:36marktechpost@Asif RazzaqLiquid AI 发布了 LFM2.5-8B-A1B,一款面向端侧设备的混合专家(MoE)模型。该模型总参数量为 8.3B,但每次推理仅激活 1.5B 参数,大幅降低了计算和内存需求。它支持 128K 上下文长度,具备推理和工具调用能力,可在消费级硬件上运行。这标志着端侧 AI 模型在效率与能力之间取得了重要平衡,为移动设备和边缘计算场景提供了新的选择。AI模型端侧模型MoELiquid AI推理模型工具调用推荐理由:端侧部署大模型一直受限于算力和内存,LFM2.5-8B-A1B 用 1.5B 激活参数实现 128K 上下文和工具调用,做移动端 AI 应用或边缘推理的开发者可以直接评估其性能。原文