11:18arXiv cs.LG@Jan Tempus, Philip Whittington, Craig W. Schmidt, Dennis Komm, Tiago Pimentel精选当前主流分词算法(如BPE、Unigram)本质上是贪心算法,只做局部最优决策,无法保证整体词汇表质量。研究者将分词器构建形式化为线性规划问题,利用凸优化工具求解,提出新算法ConvexTok。实验表明,ConvexTok在内在分词指标和语言模型的bits-per-byte(BpB)上持续优于现有方法,下游任务性能也有提升但不够稳定。更重要的是,ConvexTok能给出一个下界,证明其分词器在常见词汇表大小下距离最优解不超过1%。论文分词凸优化NLP线性规划ConvexTok推荐理由:分词是NLP的基础环节,贪心算法长期占据主流——ConvexTok用凸优化给出了可证明接近最优的方案,做分词器优化或语言模型预训练的团队值得关注。原文
19:11arXiv cs.LG@Usman A. Khan, Joseph W. Durham该研究将匿名多智能体路径规划(MAPF)问题建模为多边缘最优传输(MMOT)的一个特例,利用马尔可夫结构将指数级复杂度的MMOT简化为规模多项式的线性规划(LP)。在匿名设置下,证明了LP的可行性、全单模性以及解的空间-时间无重叠性质。为适应大规模问题,进一步引入薛定谔桥概率框架,通过熵正则化得到迭代Sinkhorn解,并基于其分数解构建简化LP,实现接近最优的整数解,显著降低计算复杂度。实验验证了该方法的最优性和可扩展性。论文多智能体路径规划最优传输薛定谔桥线性规划推荐理由:该工作从理论上建立了MAPF与最优传输之间的形式化联系,并提出了可扩展的求解框架,对机器人集群调度、仓储物流等实际应用具有重要参考价值。原文