13:59arXiv: OpenAI@Rohan Shravan精选研究者发布了BrahmicTokenizer-131K,一个131072词汇量的字节级BPE分词器,专门优化了印度婆罗米系语言的压缩效率,同时保持与OpenAI o200k_base相当的英语、欧洲语言和代码压缩性能。它通过两阶段改造实现:先裁剪o200k_base中不相关的书写系统,再为9个婆罗米Unicode区块分配2372个词汇槽位。在2700万印度语预训练文本上,它比同词汇量的Mistral-Nemo Tekken/Sarvam-m少产生26.7%的token,其中奥里亚语压缩比达4.31倍。在非印度语内容上,其英语词元率(1.235 vs 1.232)与o200k_base持平,并在HumanEval、MBPP和GSM8K上优于Tekken/Sarvam-m 4.0-14.2%。该分词器是131K词汇量下唯一同时在婆罗米语、英语、欧洲语言、代码和数学上表现均衡的方案,已以Apache 2.0协议开源。论文分词器多语言NLP印度语BPE开源/仓库8 个信源在谈推荐理由:做多语言NLP或印度语AI应用的团队终于有了一个不牺牲英语和代码性能的专用分词器——直接替换o200k_base就能获得印度语26.7%的token节省,建议做LLM训练或推理优化的开发者试试。原文
17:17marktechpost@Asif Razzaq精选72°Perplexity AI 开源了其重写的 Unigram 分词器,该分词器在 p50 延迟上比 Hugging Face tokenizers crate 低 5 倍,同时将生产环境的 CPU 利用率降低了 5-6 倍。这一改进主要针对重排序器(reranker)的延迟瓶颈,通过优化分词效率来提升整体推理性能。开源版本已在 GitHub 上发布,可供开发者直接使用。对于依赖大规模文本处理的 AI 团队来说,这能显著降低计算成本并加快响应速度。AI模型分词器开源/仓库Perplexity AI延迟优化推理加速推荐理由:做搜索或 RAG 系统的团队终于有了更快的分词方案——Perplexity 开源的这个 Unigram 分词器直接降低 5 倍延迟和 6 倍 CPU 消耗,建议有高吞吐需求的开发者立刻试一下。原文
04:47Perplexity@perplexity_ai72°Perplexity AI 开源了其重构的 Unigram 分词器,该分词器将 CPU 利用率降低了 5-6 倍。由于小型重排序器和嵌入器在 GPU 上只需个位数毫秒即可运行,CPU 分词延迟成为总延迟中的重要部分。这一优化显著减少了推理过程中的 CPU 瓶颈,尤其适合需要低延迟的实时 AI 应用。开源代码已在 GitHub 上发布,供开发者使用和贡献。AI产品Perplexity分词器开源/仓库CPU优化低延迟推荐理由:Perplexity 解决了推理管线中 CPU 分词这个容易被忽视的瓶颈,做低延迟 AI 应用或自建搜索/重排序系统的团队可以直接用这个开源方案来加速。原文
02:41Aravind Srinivas@AravSrinivas72°Perplexity 开源了其生产环境中使用的 Unigram 分词器,相比 HuggingFace 和 SentencePiece 效率更高。该分词器将 CPU 利用率降低了 5-6 倍,解决了 GPU 上运行的小型重排序器和嵌入器因 CPU 分词延迟而成为瓶颈的问题。项目已在 GitHub 上开源,旨在优化推理管道的端到端延迟。AI产品分词器开源/仓库Perplexity推理优化CPU/GPU推荐理由:Perplexity 把生产级分词器开源了,CPU 利用率降 5-6 倍,做推理优化的团队可以直接拿来用,减少延迟瓶颈。原文
13:26arXiv cs.LG@Kaiwen Shi, Carlos Oliver精选蛋白质结构分词器(PST)是蛋白质语言建模和功能预测的重要工具,但现有方法只捕捉静态结构的局部几何信息,忽略了蛋白质构象集合中的相关运动和替代状态。研究者提出 Ensembits,这是首个对蛋白质构象集合进行分词的方法,通过残差 VQ-VAE 和帧蒸馏目标在大型分子动力学语料上训练。Ensembits 在 RMSF 预测上优于所有相关方法,在基于 token 的方差分析测试中成为最强的独立结构分词器,并在 EC、GO、结合位点/亲和力预测以及零样本突变效应预测上匹配或超越静态分词器。蒸馏目标还允许从单个预测结构预测动态 token,缓解了动力学数据稀疏问题,为将动力学引入蛋白质语言建模和设计提供了离散词汇。论文蛋白质语言模型构象集合分词器分子动力学Ensembits推荐理由:做蛋白质结构预测和语言建模的团队终于有了能处理动态构象的工具——Ensembits 从单个结构就能预测运动模式,比静态分词器更贴近真实生物学,做功能预测和突变效应分析的可以直接用。原文