论文精选

WCS指标揭示LLM采样机制如何压制词汇多样性

Lost in Sampling: Assessing Lexical Reachability in LLMs via the Word Coverage Score (WCS)

精选理由

做文本生成或LLM解码优化的开发者,这篇论文直接点出了采样参数对语言多样性的隐性伤害,建议用WCS指标检查自己的模型输出是否过于单调。

AI 摘要

论文提出Word Coverage Score (WCS)指标,量化标准采样过滤器(Top-p、Top-k、Min-p)对低频高信息词汇的抑制程度。研究发现,行业默认采样参数会系统性剪除人类文本中独特表达,导致模型输出同质化。WCS为平衡文本连贯性与词汇丰富度提供了诊断工具,帮助开发者优化解码策略。

AI 翻译 · 中文

论文提出Word Coverage Score (WCS)指标,量化标准采样过滤器(Top-p、Top-k、Min-p)对低频高信息词汇的抑制程度。研究发现,行业默认采样参数会系统性剪除人类文本中独特表达,导致模型输出同质化。WCS为平衡文本连贯性与词汇丰富度提供了诊断工具,帮助开发者优化解码策略。

arXiv cs.AIModern Large Language Models (LLMs) are often criticized for producing repetitive and homogeneous text, despite possessing vast latent vocabularies. While previous research has focused on model knowledge and training dat