13:28Together AI@togethercompute精选Dan Fu在斯坦福CS336课程中讲解了推理时的KV缓存、prefill/decode分离技术,以及大规模推理的架构。他介绍了Megakernels,通过融合GPU操作实现接近光速的LLM解码。还讨论了Parcae,解释了循环Transformer的扩展问题及其修复方法,并提出了新的缩放定律,暗示现有方法可能未充分利用智能潜力。论文KV缓存MegakernelsParcae缩放定律推理优化推荐理由:Dan Fu讲KV缓存和Parcae新缩放定律原文