论文精选

ConvexTok:用凸优化求解分词器构建,接近最优解

Tokenisation via Convex Relaxations

精选理由

分词是NLP的基础环节,贪心算法长期占据主流——ConvexTok用凸优化给出了可证明接近最优的方案,做分词器优化或语言模型预训练的团队值得关注。

AI 摘要

当前主流分词算法(如BPE、Unigram)本质上是贪心算法,只做局部最优决策,无法保证整体词汇表质量。研究者将分词器构建形式化为线性规划问题,利用凸优化工具求解,提出新算法ConvexTok。实验表明,ConvexTok在内在分词指标和语言模型的bits-per-byte(BpB)上持续优于现有方法,下游任务性能也有提升但不够稳定。更重要的是,ConvexTok能给出一个下界,证明其分词器在常见词汇表大小下距离最优解不超过1%。

AI 翻译 · 中文

当前主流分词算法(如BPE、Unigram)本质上是贪心算法,只做局部最优决策,无法保证整体词汇表质量。研究者将分词器构建形式化为线性规划问题,利用凸优化工具求解,提出新算法ConvexTok。实验表明,ConvexTok在内在分词指标和语言模型的bits-per-byte(BpB)上持续优于现有方法,下游任务性能也有提升但不够稳定。更重要的是,ConvexTok能给出一个下界,证明其分词器在常见词汇表大小下距离最优解不超过1%。

arXiv cs.LGTokenisation is an integral part of the current NLP pipeline. Current tokenisation algorithms such as BPE and Unigram are greedy algorithms -- they make locally optimal decisions without considering the resulting vocabul