AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:GQA×
6月17日
08:07
08:07marktechpost@Sana Hassan
精选71°
本文通过xFormers实现GPU上内存高效的Transformer模型。对比标准注意力实现,验证了内存高效注意力在不同序列长度下的速度和内存表现。教程涵盖因果掩码、打包变长序列(packed sequences)、分组查询注意力(GQA)以及自定义ALiBi偏置。最后将上述技术结合SwiGLU层和自动混合精度训练,构建了一个可训练的GPT风格模型。
技巧xFormersPacked sequencesGQAALiBiSwiGLU内存优化

推荐理由:手把手教你用xFormers做内存优化,打包序列、GQA、ALiBi、SwiGLU全都有,比标准实现省显存还快。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月23日
17:52
17:52marktechpost@Sana Hassan
本文是一篇教程,介绍如何使用 OpenMythos 框架构建循环深度 Transformer 模型,并在 Google Colab 中端到端运行。教程涵盖了多头潜在注意力(MLA)、分组查询注意力(GQA)、稀疏混合专家(MoE)和循环缩放推理等高级特性。作者通过构建 MLA 和 GQA 两种变体,对比了它们的参数量,并通过谱半径检查了循环注入矩阵的稳定性。该教程为研究人员和开发者提供了在有限资源下探索循环深度 Transformer 的实用指南。
论文循环深度 TransformerOpenMythosMLAGQA稀疏 MoE

推荐理由:想低成本在 Colab 里跑循环深度 Transformer 的研究者可以直接上手——OpenMythos 把 MLA、GQA、稀疏 MoE 这些前沿结构打包成了可复现的教程,做注意力机制或推理效率优化的团队值得点开。
原文
精选全部日报登录