13:51Together AI@togethercompute精选Together Compute推出ParallelKernelBench开放基准测试,专门评估LLM编写多GPU内核的难度。该基准基于50个真实CUDA通信问题,性能取决于通过NVLink高效移动数据。测试结果将于6月30日在aiDotEngineer World's Fair上由Simran Arora分享。AI模型ParallelKernelBenchTogether ComputeCUDANVLink基准测试推荐理由:Together Compute搞了个ParallelKernelBench,专门测LLM能不能写好复杂的多GPU内核,比单GPU难多了,感兴趣的话可以去现场听分享。原文
16:43marktechpost@Asif Razzaq精选UC Berkeley的UCCL团队发布mKernel,这是一个将节点内NVLink、节点间RDMA和密集计算融合成单个持久CUDA内核的库。它旨在提升多GPU多节点环境下的通信效率。通过消除内核启动和内存拷贝开销,mKernel在典型训练工作负载中可显著降低延迟。该库开源,支持NVIDIA GPU集群。AI产品mKernelUCCLNVLinkRDMAGPU通信5 个信源在谈推荐理由:UC Berkeley的GPU通信新库原文