BrahmicTokenizer-131K：替代o200k_base的印度语言分词器

精选理由

做多语言NLP或印度语AI应用的团队终于有了一个不牺牲英语和代码性能的专用分词器——直接替换o200k_base就能获得印度语26.7%的token节省，建议做LLM训练或推理优化的开发者试试。

AI 摘要

研究者发布了BrahmicTokenizer-131K，一个131072词汇量的字节级BPE分词器，专门优化了印度婆罗米系语言的压缩效率，同时保持与OpenAI o200k_base相当的英语、欧洲语言和代码压缩性能。它通过两阶段改造实现：先裁剪o200k_base中不相关的书写系统，再为9个婆罗米Unicode区块分配2372个词汇槽位。在2700万印度语预训练文本上，它比同词汇量的Mistral-Nemo Tekken/Sarvam-m少产生26.7%的token，其中奥里亚语压缩比达4.31倍。在非印度语内容上，其英语词元率（1.235 vs 1.232）与o200k_base持平，并在HumanEval、MBPP和GSM8K上优于Tekken/Sarvam-m 4.0-14.2%。该分词器是131K词汇量下唯一同时在婆罗米语、英语、欧洲语言、代码和数学上表现均衡的方案，已以Apache 2.0协议开源。

AI 翻译 · 中文

arXiv: OpenAIWe present BrahmicTokenizer-131K, a 131,072-vocabulary byte-level BPE tokenizer that closes the Brahmic compression gap at the 131K-vocabulary class while preserving the English, EU-language, and code compression of Open…

IT之家05-29 05:52原文
Cohere05-29 18:21原文
marktechpost05-29 23:19原文
OpenAI Blog05-27 00:00原文
shao__meng05-27 00:44原文
宝玉05-27 20:11原文
Decoder05-28 12:23原文
Gary Marcus05-29 16:28原文

阅读原文