全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月29日

13:59

13:59

arXiv: OpenAI@Rohan Shravan

精选

研究者发布了BrahmicTokenizer-131K，一个131072词汇量的字节级BPE分词器，专门优化了印度婆罗米系语言的压缩效率，同时保持与OpenAI o200k_base相当的英语、欧洲语言和代码压缩性能。它通过两阶段改造实现：先裁剪o200k_base中不相关的书写系统，再为9个婆罗米Unicode区块分配2372个词汇槽位。在2700万印度语预训练文本上，它比同词汇量的Mistral-Nemo Tekken/Sarvam-m少产生26.7%的token，其中奥里亚语压缩比达4.31倍。在非印度语内容上，其英语词元率（1.235 vs 1.232）与o200k_base持平，并在HumanEval、MBPP和GSM8K上优于Tekken/Sarvam-m 4.0-14.2%。该分词器是131K词汇量下唯一同时在婆罗米语、英语、欧洲语言、代码和数学上表现均衡的方案，已以Apache 2.0协议开源。

论文分词器多语言NLP 印度语 BPE 开源/仓库

推荐理由：做多语言NLP或印度语AI应用的团队终于有了一个不牺牲英语和代码性能的专用分词器——直接替换o200k_base就能获得印度语26.7%的token节省，建议做LLM训练或推理优化的开发者试试。