双语评估替补(BLEU,Bilingual Evaluation Understudy)是一种用于评估机器翻译质量的自动化指标,其核心思想是通过计算机器翻译结果与人工参考译文之间的相似度来量化翻译质量。

一、基本原理
-
核心目标
BLEU旨在替代人工评估,通过统计机器翻译结果中与参考译文匹配的**n-gram(连续n个词)**数量,衡量翻译的准确性和流畅性。例如,若机器翻译的句子与参考译文在词汇、短语层面高度重合,则得分较高。 -
修正精确度(Modified Precision)
为避免机器翻译通过重复高频词(如“the the the”)虚高得分,BLEU引入修正机制:每个n-gram的计数上限为参考译文中该n-gram的最大出现次数。例如,若参考译文中“the”最多出现2次,则机器翻译中无论重复多少次“the”,最多仅计2次匹配。 -
简短惩罚因子(Brevity Penalty, BP)
当机器翻译结果过短时,BLEU会施加惩罚。BP的计算公式为:
![[
BP = \begin{cases}
1 & \text{若机器翻译长度} > \text{参考译文长度} \
e^{(1 - \text{参考译文长度}/\text{机器翻译长度})} & \text{否则}
\end{cases}
]](/https://i-blog.csdnimg.cn/direct/3616f33607104cef904620b23012f6b9.png)
这一机制防止短句因匹配少量词而得分虚高。

&spm=1001.2101.3001.5002&articleId=147215740&d=1&t=3&u=37dda0835b134c38867c94e408e321a9)
5111

被折叠的 条评论
为什么被折叠?



