17:52marktechpost@Sana Hassan本文是一篇教程,介绍如何使用 OpenMythos 框架构建循环深度 Transformer 模型,并在 Google Colab 中端到端运行。教程涵盖了多头潜在注意力(MLA)、分组查询注意力(GQA)、稀疏混合专家(MoE)和循环缩放推理等高级特性。作者通过构建 MLA 和 GQA 两种变体,对比了它们的参数量,并通过谱半径检查了循环注入矩阵的稳定性。该教程为研究人员和开发者提供了在有限资源下探索循环深度 Transformer 的实用指南。论文循环深度 TransformerOpenMythosMLAGQA稀疏 MoE推荐理由:想低成本在 Colab 里跑循环深度 Transformer 的研究者可以直接上手——OpenMythos 把 MLA、GQA、稀疏 MoE 这些前沿结构打包成了可复现的教程,做注意力机制或推理效率优化的团队值得点开。原文
17:50marktechpost@Michal Sutter78°Cohere 发布了 Command A+,一个 218B 参数的稀疏混合专家(MoE)模型,整合了此前四个 Command A 变体。该模型在 W4A4 量化下仅需两张 H100 GPU 即可运行,支持 48 种语言,是 Cohere 首个多模态推理模型,专为智能体工作流设计。其开源特性降低了部署门槛,适合需要高效多模态推理和智能体任务的团队。AI模型CohereCommand A+稀疏 MoE多模态推理智能体工作流推荐理由:Cohere 把 218B 模型压到两张 H100 就能跑,做智能体工作流的团队终于有了高性价比的开源选择——多模态推理和 48 语言支持直接可用,建议试试。原文