13:51Together AI@togethercompute精选Together Compute推出ParallelKernelBench开放基准测试,专门评估LLM编写多GPU内核的难度。该基准基于50个真实CUDA通信问题,性能取决于通过NVLink高效移动数据。测试结果将于6月30日在aiDotEngineer World's Fair上由Simran Arora分享。AI模型ParallelKernelBenchTogether ComputeCUDANVLink基准测试推荐理由:Together Compute搞了个ParallelKernelBench,专门测LLM能不能写好复杂的多GPU内核,比单GPU难多了,感兴趣的话可以去现场听分享。原文
13:50阿里云 Alibaba Cloud@alibaba_cloud在Flink Forward Asia Shenzhen 2026上,NVIDIA的Chuan Chen介绍了与阿里云的技术合作。双方通过CUDA库加速Apache Flink的多模态数据流处理。这一开源协作实现了端到端高性能多模态流式架构,适用于AI评论、实时图文流和交互式问答。行业NVIDIAAlibaba CloudApache FlinkCUDA多模态5 个信源在谈推荐理由:NVIDIA和阿里云用CUDA把Flink的多模态数据处理速度拉满了,想做实时AI评论或图文问答的可以看看这个架构。原文
00:48berryxia@berryxiaMLX维护者、Electron.js创始人@zcbenz在Apple宣布,MLX的CUDA后端所有测试全部通过。这意味着原本仅限苹果硅芯片的机器学习框架MLX,现在也能在NVIDIA显卡上高效运行。同一套代码在Mac和NVIDIA GPU上都能流畅执行,打破了PyTorch的兼容瓶颈。此举标志着本地AI跨平台时代加速到来,开发者不再受限于单一硬件生态。AI产品MLXCUDA跨平台本地AI苹果推荐理由:MLX打通CUDA后,做本地AI推理的开发者终于可以一套代码跑通Mac和NVIDIA显卡,省去PyTorch兼容折腾,建议关注这个框架的跨平台潜力。原文