论文精选

BrahmicTokenizer-131K:替代o200k_base的印度语言分词器

BrahmicTokenizer-131K: An Indic-Capable Drop-In Replacement for o200k_base

精选理由

做多语言NLP或印度语AI应用的团队终于有了一个不牺牲英语和代码性能的专用分词器——直接替换o200k_base就能获得印度语26.7%的token节省,建议做LLM训练或推理优化的开发者试试。

AI 摘要

研究者发布了BrahmicTokenizer-131K,一个131072词汇量的字节级BPE分词器,专门优化了印度婆罗米系语言的压缩效率,同时保持与OpenAI o200k_base相当的英语、欧洲语言和代码压缩性能。它通过两阶段改造实现:先裁剪o200k_base中不相关的书写系统,再为9个婆罗米Unicode区块分配2372个词汇槽位。在2700万印度语预训练文本上,它比同词汇量的Mistral-Nemo Tekken/Sarvam-m少产生26.7%的token,其中奥里亚语压缩比达4.31倍。在非印度语内容上,其英语词元率(1.235 vs 1.232)与o200k_base持平,并在HumanEval、MBPP和GSM8K上优于Tekken/Sarvam-m 4.0-14.2%。该分词器是131K词汇量下唯一同时在婆罗米语、英语、欧洲语言、代码和数学上表现均衡的方案,已以Apache 2.0协议开源。

AI 翻译 · 中文

研究者发布了BrahmicTokenizer-131K,一个131072词汇量的字节级BPE分词器,专门优化了印度婆罗米系语言的压缩效率,同时保持与OpenAI o200k_base相当的英语、欧洲语言和代码压缩性能。它通过两阶段改造实现:先裁剪o200k_base中不相关的书写系统,再为9个婆罗米Unicode区块分配2372个词汇槽位。在2700万印度语预训练文本上,它比同词汇量的Mistral-Nemo Tekken/Sarvam-m少产生26.7%的token,其中奥里亚语压缩比达4.31倍。在非印度语内容上,其英语词元率(1.235 vs 1.232)与o200k_base持平,并在HumanEval、MBPP和GSM8K上优于Tekken/Sarvam-m 4.0-14.2%。该分词器是131K词汇量下唯一同时在婆罗米语、英语、欧洲语言、代码和数学上表现均衡的方案,已以Apache 2.0协议开源。

arXiv: OpenAIWe present BrahmicTokenizer-131K, a 131,072-vocabulary byte-level BPE tokenizer that closes the Brahmic compression gap at the 131K-vocabulary class while preserving the English, EU-language, and code compression of Open