BLEU(Bilingual Evaluation Understudy)作为机器翻译及其他文本生成任务中最常用的自动评估指标,自提出以来虽被广泛采用,但其对语义、流畅度及低资源语言的评估局限性也长期受到批评。近期研究仍普遍依赖BLEU进行量化对比,但开始探索其适用边界与替代方案。
当前焦点集中于BLEU在多样化生成任务中的有效性边界:它是否仍能忠实反映模型真实能力?未来观察点包括更语义化的指标(如BERTScore、COMET)的普及速度,以及低资源和多语言场景下替代评估方案的标准化进展。
BLEU(Bilingual Evaluation Understudy)作为机器翻译及其他文本生成任务中最常用的自动评估指标,自提出以来虽被广泛采用,但其对语义、流畅度及低资源语言的评估局限性也长期受到批评。近期研究仍普遍依赖BLEU进行量化对比,但开始探索其适用边界与替代方案。
当前焦点集中于BLEU在多样化生成任务中的有效性边界:它是否仍能忠实反映模型真实能力?未来观察点包括更语义化的指标(如BERTScore、COMET)的普及速度,以及低资源和多语言场景下替代评估方案的标准化进展。