Bleu · AI 话题观测

§ 01综述

BLEU（Bilingual Evaluation Understudy）作为机器翻译及其他文本生成任务中最常用的自动评估指标，自提出以来虽被广泛采用，但其对语义、流畅度及低资源语言的评估局限性也长期受到批评。近期研究仍普遍依赖BLEU进行量化对比，但开始探索其适用边界与替代方案。

在低资源神经机器翻译案例中，研究者使用数据合成与参数高效微调（PEFT）提升Q'eqchi'玛雅语翻译质量，并以BLEU作为主要评估指标，显示BLEU在跨语言场景下的持续沿用（数据合成+PEFT助力低资源NMT：Q'eqchi'玛雅语案例研究）。

针对医学影像报告生成任务，基于强化学习的RL-ACRGNet网络同样采用BLEU评估生成文本的准确性，反映出该指标在领域特定文本生成中的惯性使用（RL-ACRGNet：基于强化学习的胸部X光报告生成网络）。

图到文本生成模型Graph-LLaDA的研究进一步揭示，监督微调（SFT）会破坏解码策略，而BLEU等基于n-gram重叠的指标可能无法捕捉这种语义退化，暗示指标本身的盲区（Graph-LLaDA：扩散模型在图到文本生成中优先解码实体，SFT反而破坏策略）。

当前焦点集中于BLEU在多样化生成任务中的有效性边界：它是否仍能忠实反映模型真实能力？未来观察点包括更语义化的指标（如BERTScore、COMET）的普及速度，以及低资源和多语言场景下替代评估方案的标准化进展。

§ 02相关报道03 条在档

§ 03邻近话题