13:51Together AI@togethercompute精选ParallelKernelBench评估了LLMs编写多GPU内核的能力,包含87个来自Megatron-LM、DeepSpeed、DeepEP、TensorRT-LLM、NeMo-RL等真实代码库的问题。测试结果显示LLMs在单GPU内核上表现良好,但在多GPU场景下完全失败。该研究由Willy Chan等人完成,揭示了当前LLM在多GPU编程中的核心缺陷。AI模型ParallelKernelBenchMegatron-LMDeepSpeed多GPU基准测试推荐理由:新基准ParallelKernelBench发现,LLM写单GPU代码还行,但多个GPU一起就瞎了。想看看AI编程到底卡在哪?原文