AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:CUDA×
6月29日
13:51
13:51Together AI@togethercompute
精选
Together Compute推出ParallelKernelBench开放基准测试,专门评估LLM编写多GPU内核的难度。该基准基于50个真实CUDA通信问题,性能取决于通过NVLink高效移动数据。测试结果将于6月30日在aiDotEngineer World's Fair上由Simran Arora分享。
AI模型ParallelKernelBenchTogether ComputeCUDANVLink基准测试

推荐理由:Together Compute搞了个ParallelKernelBench,专门测LLM能不能写好复杂的多GPU内核,比单GPU难多了,感兴趣的话可以去现场听分享。
原文
13:50
13:50阿里云 Alibaba Cloud@alibaba_cloud
在Flink Forward Asia Shenzhen 2026上,NVIDIA的Chuan Chen介绍了与阿里云的技术合作。双方通过CUDA库加速Apache Flink的多模态数据流处理。这一开源协作实现了端到端高性能多模态流式架构,适用于AI评论、实时图文流和交互式问答。
行业NVIDIAAlibaba CloudApache FlinkCUDA多模态

推荐理由:NVIDIA和阿里云用CUDA把Flink的多模态数据处理速度拉满了,想做实时AI评论或图文问答的可以看看这个架构。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月15日
00:48
00:48berryxia@berryxia
MLX维护者、Electron.js创始人@zcbenz在Apple宣布,MLX的CUDA后端所有测试全部通过。这意味着原本仅限苹果硅芯片的机器学习框架MLX,现在也能在NVIDIA显卡上高效运行。同一套代码在Mac和NVIDIA GPU上都能流畅执行,打破了PyTorch的兼容瓶颈。此举标志着本地AI跨平台时代加速到来,开发者不再受限于单一硬件生态。
AI产品MLXCUDA跨平台本地AI苹果

推荐理由:MLX打通CUDA后,做本地AI推理的开发者终于可以一套代码跑通Mac和NVIDIA显卡,省去PyTorch兼容折腾,建议关注这个框架的跨平台潜力。
原文
精选全部日报登录