用RTX 3060运行1万亿参数模型Kimi K2.5，速度4 tokens/sec

精选理由

用旧硬件跑万亿模型，省钱又酷

AI 摘要

有人用单张RTX 3060 12GB GPU和768GB二手Intel Optane持久内存运行了1万亿参数的Kimi K2.5模型，速度超过4 tokens/sec。Kimi K2.5是混合专家模型，总参数1T但每token仅激活32B。RTX 3060的12GB VRAM处理路由、注意力等延迟敏感部分，专家权重存储在Optane PMem中，192GB DDR4 ECC作为缓存。Optane PMem延迟比最佳NVMe SSD低很多，但比DRAM慢2-3倍。llama.cpp通过override-tensor标志调整张量放置，实现混合GPU/CPU推理。

AI 翻译 · 中文

rohanpaul_aiSomebody just ran one trillion param model (Kimi K2.5) on a single RTX 3060 12GB GPU at over 4 tokens/sec and 768GB of second-hand Intel Optane memory. What happened is that a sparse model met an unusual memory tier that…

查看原推