13:59arXiv: OpenAI@Rohan Shravan精选研究者发布了BrahmicTokenizer-131K,一个131072词汇量的字节级BPE分词器,专门优化了印度婆罗米系语言的压缩效率,同时保持与OpenAI o200k_base相当的英语、欧洲语言和代码压缩性能。它通过两阶段改造实现:先裁剪o200k_base中不相关的书写系统,再为9个婆罗米Unicode区块分配2372个词汇槽位。在2700万印度语预训练文本上,它比同词汇量的Mistral-Nemo Tekken/Sarvam-m少产生26.7%的token,其中奥里亚语压缩比达4.31倍。在非印度语内容上,其英语词元率(1.235 vs 1.232)与o200k_base持平,并在HumanEval、MBPP和GSM8K上优于Tekken/Sarvam-m 4.0-14.2%。该分词器是131K词汇量下唯一同时在婆罗米语、英语、欧洲语言、代码和数学上表现均衡的方案,已以Apache 2.0协议开源。论文分词器多语言NLP印度语BPE开源/仓库8 个信源在谈推荐理由:做多语言NLP或印度语AI应用的团队终于有了一个不牺牲英语和代码性能的专用分词器——直接替换o200k_base就能获得印度语26.7%的token节省,建议做LLM训练或推理优化的开发者试试。原文
13:26arXiv cs.LG@Kaiwen Shi, Carlos Oliver精选蛋白质结构分词器(PST)是蛋白质语言建模和功能预测的重要工具,但现有方法只捕捉静态结构的局部几何信息,忽略了蛋白质构象集合中的相关运动和替代状态。研究者提出 Ensembits,这是首个对蛋白质构象集合进行分词的方法,通过残差 VQ-VAE 和帧蒸馏目标在大型分子动力学语料上训练。Ensembits 在 RMSF 预测上优于所有相关方法,在基于 token 的方差分析测试中成为最强的独立结构分词器,并在 EC、GO、结合位点/亲和力预测以及零样本突变效应预测上匹配或超越静态分词器。蒸馏目标还允许从单个预测结构预测动态 token,缓解了动力学数据稀疏问题,为将动力学引入蛋白质语言建模和设计提供了离散词汇。论文蛋白质语言模型构象集合分词器分子动力学Ensembits推荐理由:做蛋白质结构预测和语言建模的团队终于有了能处理动态构象的工具——Ensembits 从单个结构就能预测运动模式,比静态分词器更贴近真实生物学,做功能预测和突变效应分析的可以直接用。原文