精选理由
长文本推理的延迟痛点终于有了低成本解法——Stem 用 25% 算力实现近无损精度,做 LLM 推理优化的团队可以直接用开源代码实测,128K 上下文下首字延迟降低 3.6 倍的效果值得关注。
腾讯混元团队提出 Stem 稀疏注意力算法,已被 ICML-26 收录。该算法通过 Token 位置衰减和输出感知度量两大创新,仅用 25% 算力即可逼近稠密注意力的精度。配套的 HPC 算子库将理论加速转化为实际性能,在 128K 上下文下首字延迟降低 3.6 倍。该方案为长文本推理场景提供了高效、低成本的注意力加速方案,相关论文和代码已开源。
AI 翻译 · 中文
腾讯混元团队提出 Stem 稀疏注意力算法,已被 ICML-26 收录。该算法通过 Token 位置衰减和输出感知度量两大创新,仅用 25% 算力即可逼近稠密注意力的精度。配套的 HPC 算子库将理论加速转化为实际性能,在 128K 上下文下首字延迟降低 3.6 倍。该方案为长文本推理场景提供了高效、低成本的注意力加速方案,相关论文和代码已开源。
IT之家 6 月 5 日消息,腾讯混元今日宣布提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。 官方表示,Stem 稀疏注意力算法从“因果信息流”重新审视块级稀疏,用 Token 位置衰减(TPD)和输出感知度量(OAM)两大创新, 仅用 25% 算力就逼近稠密注意力的精度 。配套的 HPC 算子库则将这份理论加速比真正转化为端到端的实测性能。 ▲ Stem 在 Hy3 preview(W8A8-FP8)上更贴近…