12:01arXiv cs.AI@Filippos Ventirozos, Matthew Shardlow论文提出在智能体驱动电商中,买方智能体通过微交易(如x402、AP2协议)按需购买已验证产品信息,而非仅用于匹配商品。作者设想了微交易市场架构,包含卖家/评审员数据按条付费(freemium模式)和信誉评分。该市场可奖励真实产品质量,比基于排名的店面产生更真实的竞争。论文将愿景转化为五个具体NLP问题:成本最优信息获取、数据定价与谈判、实时实体解析、基于价值交换及隐私保护人设建模。论文NLP智能体微交易电子商务信息验证推荐理由:这篇论文展望了智能体电商的未来:AI买家花几分钱买真实的商品历史数据,而不是听推荐。把注意力从对话流畅度拉回到信息验证上,值得关注。原文
10:13arXiv cs.AI@Ali Elahi, Barbara Di Eugenio现有自然语言处理(NLP)方法中,置信度用于可靠性、监督和下游决策,但尚无方法为多智能体系统的输出生成或评估置信度。本文提出三种协议,通过将原始置信度信号跨模型可比化,再经软投票或贝叶斯融合聚合,输出最终答案及单一聚合置信度。实验表明,聚合置信度的判别能力(AUARC)显著优于最佳单智能体或标准辩论基线,而正确性(F1分数)保持稳定,并恢复了多智能体辩论在模糊任务上的损失。研究分析了序列概率和自报告两种估计器,以及参数与非参数校准器,发现校准可提升F1,而AUARC对校准依赖较小。在五个基准和四种任务类型上,评估了六组同质和异质辩论对,覆盖不同模型能力和规模。论文多智能体置信度聚合NLP贝叶斯融合辩论协议推荐理由:多智能体系统终于有了统一的置信度评估方法,做NLP系统可靠性或智能体协作的团队可以直接参考协议设计,提升系统可信度。原文
11:18arXiv cs.LG@Jan Tempus, Philip Whittington, Craig W. Schmidt, Dennis Komm, Tiago Pimentel精选当前主流分词算法(如BPE、Unigram)本质上是贪心算法,只做局部最优决策,无法保证整体词汇表质量。研究者将分词器构建形式化为线性规划问题,利用凸优化工具求解,提出新算法ConvexTok。实验表明,ConvexTok在内在分词指标和语言模型的bits-per-byte(BpB)上持续优于现有方法,下游任务性能也有提升但不够稳定。更重要的是,ConvexTok能给出一个下界,证明其分词器在常见词汇表大小下距离最优解不超过1%。论文分词凸优化NLP线性规划ConvexTok推荐理由:分词是NLP的基础环节,贪心算法长期占据主流——ConvexTok用凸优化给出了可证明接近最优的方案,做分词器优化或语言模型预训练的团队值得关注。原文
09:46arXiv cs.AI@Fernando Ortega, Raúl Lara-Cabrera, Jorge Dueñas-Lerín, Alejandro de la Torre-Luque, Mercé Salvador Robert, Enrique Baca-García精选该研究利用自然语言处理与机器学习技术,将自由文本的精神科诊断描述自动映射到国际疾病分类(ICD)编码。研究基于14.5万条西班牙语精神科描述数据集,比较了从词袋模型、TF-IDF到大型语言模型(如e5_large、BioLORD、Llama-3-8B)等多种文本表示方法。结果显示,基于Transformer的嵌入方法在捕捉隐含语义和医学术语方面显著优于传统方法,其中e5_large模型通过端到端微调取得了0.866的F1_micro最高分。研究强调,将LLM适配到特定临床术语对于克服“长尾”标签分布和精神科话语的固有歧义至关重要。论文NLPICD编码精神科诊断大型语言模型临床文本推荐理由:精神科医生和医疗编码员每天面对大量诊断文本,这项研究展示了如何用LLM自动化ICD编码,大幅减轻行政负担。做医疗NLP或临床信息学的团队值得关注其方法。原文