ConvexTok：用凸优化求解分词器构建，接近最优解

精选理由

分词是NLP的基础环节，贪心算法长期占据主流——ConvexTok用凸优化给出了可证明接近最优的方案，做分词器优化或语言模型预训练的团队值得关注。

AI 摘要

当前主流分词算法（如BPE、Unigram）本质上是贪心算法，只做局部最优决策，无法保证整体词汇表质量。研究者将分词器构建形式化为线性规划问题，利用凸优化工具求解，提出新算法ConvexTok。实验表明，ConvexTok在内在分词指标和语言模型的bits-per-byte（BpB）上持续优于现有方法，下游任务性能也有提升但不够稳定。更重要的是，ConvexTok能给出一个下界，证明其分词器在常见词汇表大小下距离最优解不超过1%。

AI 翻译 · 中文

arXiv cs.LGTokenisation is an integral part of the current NLP pipeline. Current tokenisation algorithms such as BPE and Unigram are greedy algorithms -- they make locally optimal decisions without considering the resulting vocabul…

阅读原文