AI模型精选

用RTX 3060运行1万亿参数模型Kimi K2.5,速度4 tokens/sec

Somebody just ran one trillion param model (Kimi K…

精选理由

用旧硬件跑万亿模型,省钱又酷

AI 摘要

有人用单张RTX 3060 12GB GPU和768GB二手Intel Optane持久内存运行了1万亿参数的Kimi K2.5模型,速度超过4 tokens/sec。Kimi K2.5是混合专家模型,总参数1T但每token仅激活32B。RTX 3060的12GB VRAM处理路由、注意力等延迟敏感部分,专家权重存储在Optane PMem中,192GB DDR4 ECC作为缓存。Optane PMem延迟比最佳NVMe SSD低很多,但比DRAM慢2-3倍。llama.cpp通过override-tensor标志调整张量放置,实现混合GPU/CPU推理。

AI 翻译 · 中文

有人用单张RTX 3060 12GB GPU和768GB二手Intel Optane持久内存运行了1万亿参数的Kimi K2.5模型,速度超过4 tokens/sec。Kimi K2.5是混合专家模型,总参数1T但每token仅激活32B。RTX 3060的12GB VRAM处理路由、注意力等延迟敏感部分,专家权重存储在Optane PMem中,192GB DDR4 ECC作为缓存。Optane PMem延迟比最佳NVMe SSD低很多,但比DRAM慢2-3倍。llama.cpp通过override-tensor标志调整张量放置,实现混合GPU/CPU推理。

rohanpaul_aiSomebody just ran one trillion param model (Kimi K2.5) on a single RTX 3060 12GB GPU at over 4 tokens/sec and 768GB of second-hand Intel Optane memory. What happened is that a sparse model met an unusual memory tier that