Perplexity 开源 Unigram 分词器，CPU 利用率降低 5-6 倍

精选理由

Perplexity 解决了推理管线中 CPU 分词这个容易被忽视的瓶颈，做低延迟 AI 应用或自建搜索/重排序系统的团队可以直接用这个开源方案来加速。

AI 摘要

Perplexity AI 开源了其重构的 Unigram 分词器，该分词器将 CPU 利用率降低了 5-6 倍。由于小型重排序器和嵌入器在 GPU 上只需个位数毫秒即可运行，CPU 分词延迟成为总延迟中的重要部分。这一优化显著减少了推理过程中的 CPU 瓶颈，尤其适合需要低延迟的实时 AI 应用。开源代码已在 GitHub 上发布，供开发者使用和贡献。

AI 翻译 · 中文

PerplexityWe're open-sourcing the Unigram tokenizer we rebuilt to reduce CPU utilization by 5-6x. Small rerankers and embedders run in single-digit milliseconds on GPU, making CPU tokenization a meaningful share of total laten…

查看原推