精选理由
UC Berkeley的GPU通信新库
UC Berkeley的UCCL团队发布mKernel,这是一个将节点内NVLink、节点间RDMA和密集计算融合成单个持久CUDA内核的库。它旨在提升多GPU多节点环境下的通信效率。通过消除内核启动和内存拷贝开销,mKernel在典型训练工作负载中可显著降低延迟。该库开源,支持NVIDIA GPU集群。
AI 翻译 · 中文
UC Berkeley的UCCL团队发布mKernel,这是一个将节点内NVLink、节点间RDMA和密集计算融合成单个持久CUDA内核的库。它旨在提升多GPU多节点环境下的通信效率。通过消除内核启动和内存拷贝开销,mKernel在典型训练工作负载中可显著降低延迟。该库开源,支持NVIDIA GPU集群。
UC Berkeley's UCCL team releases mKernel, fusing intra-node NVLink, inter-node RDMA, and dense compute into a single persistent CUDA kernel. The post Meet mKernel: A Multi-GPU, Multi-Node Fused Kernel Library for GPU-Dri…