16:43marktechpost@Asif Razzaq精选UC Berkeley的UCCL团队发布mKernel,这是一个将节点内NVLink、节点间RDMA和密集计算融合成单个持久CUDA内核的库。它旨在提升多GPU多节点环境下的通信效率。通过消除内核启动和内存拷贝开销,mKernel在典型训练工作负载中可显著降低延迟。该库开源,支持NVIDIA GPU集群。AI产品mKernelUCCLNVLinkRDMAGPU通信5 个信源在谈推荐理由:UC Berkeley的GPU通信新库原文