Perplexity 开源 Unigram 分词器,CPU 利用率降低 5-6 倍

We're open-sourcing the Unigram tokenizer we rebuilt to reduce CPU utilization by 5-6x. Small reran...

精选理由

Perplexity 解决了推理管线中 CPU 分词这个容易被忽视的瓶颈,做低延迟 AI 应用或自建搜索/重排序系统的团队可以直接用这个开源方案来加速。

AI 摘要

Perplexity AI 开源了其重构的 Unigram 分词器,该分词器将 CPU 利用率降低了 5-6 倍。由于小型重排序器和嵌入器在 GPU 上只需个位数毫秒即可运行,CPU 分词延迟成为总延迟中的重要部分。这一优化显著减少了推理过程中的 CPU 瓶颈,尤其适合需要低延迟的实时 AI 应用。开源代码已在 GitHub 上发布,供开发者使用和贡献。

AI 翻译 · 中文

Perplexity AI 开源了其重构的 Unigram 分词器,该分词器将 CPU 利用率降低了 5-6 倍。由于小型重排序器和嵌入器在 GPU 上只需个位数毫秒即可运行,CPU 分词延迟成为总延迟中的重要部分。这一优化显著减少了推理过程中的 CPU 瓶颈,尤其适合需要低延迟的实时 AI 应用。开源代码已在 GitHub 上发布,供开发者使用和贡献。

PerplexityWe're open-sourcing the Unigram tokenizer we rebuilt to reduce CPU utilization by 5-6x. Small rerankers and embedders run in single-digit milliseconds on GPU, making CPU tokenization a meaningful share of total laten