11:18arXiv cs.LG@Jan Tempus, Philip Whittington, Craig W. Schmidt, Dennis Komm, Tiago Pimentel精选当前主流分词算法(如BPE、Unigram)本质上是贪心算法,只做局部最优决策,无法保证整体词汇表质量。研究者将分词器构建形式化为线性规划问题,利用凸优化工具求解,提出新算法ConvexTok。实验表明,ConvexTok在内在分词指标和语言模型的bits-per-byte(BpB)上持续优于现有方法,下游任务性能也有提升但不够稳定。更重要的是,ConvexTok能给出一个下界,证明其分词器在常见词汇表大小下距离最优解不超过1%。论文分词凸优化NLP线性规划ConvexTok推荐理由:分词是NLP的基础环节,贪心算法长期占据主流——ConvexTok用凸优化给出了可证明接近最优的方案,做分词器优化或语言模型预训练的团队值得关注。原文