02:41Aravind Srinivas@AravSrinivas72°Perplexity 开源了其生产环境中使用的 Unigram 分词器,相比 HuggingFace 和 SentencePiece 效率更高。该分词器将 CPU 利用率降低了 5-6 倍,解决了 GPU 上运行的小型重排序器和嵌入器因 CPU 分词延迟而成为瓶颈的问题。项目已在 GitHub 上开源,旨在优化推理管道的端到端延迟。AI产品分词器开源/仓库Perplexity推理优化CPU/GPU推荐理由:Perplexity 把生产级分词器开源了,CPU 利用率降 5-6 倍,做推理优化的团队可以直接拿来用,减少延迟瓶颈。原文