BLEU
BLEU (BiLingual Evaluation Understudy) 经常被用于翻译中评估预测句子与目标翻译相比的质量,也可被用于生成任务中评估生成的句子和 ground-turth 的差别。
其中,$p_n$ 表示文本修正后的 n_gram precision
$Count_{clip}$ 是截断的重复计数,将一个 n_gram 在预测句子中出现的次数与在各个 target 句子中出现的次数的最大值进行比较,取较小值。即 $Count_{clip}=min(h_C,max_{j\in m}h_{S_j})$ ,$h_C$ 为 n_gram 在预测句子中出现的次数,$h_{S_j}$ 为 n_gram 在第 $j$ 个 target 句子中出现的次数。
$BP$ 是短句子惩罚因子(Brevity Penalty)
$c$ 是预测句子的长度,$r$ 是所有 target 句子的最短长度。
METEOR
METEOR (Metric for Evaluation of Translation with Explicit ORdering)
其中,
$m$ 为匹配的一元组数量,$c$ 为预测句子的长度,$r$ 为 target 句子的长度。$p$ 为针对语序的惩罚:
其中,$\#chunks$ 表示既在预测句子中又在 target 句子中的连续 token 块的数量,比如下面两个句子的 chunks 有两个,分别为 the president
和 spoke to the audience
:
Prediction: the president spoke to the audience.
Target: the president then spoke to the audience.
ROUGE
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 经常被用于评价自动摘要和机器翻译的质量。
其中,$Count(gram_n)$ 表示该 n_gram 出现的次数,$Count_{match}$ 表示该 n_gram 共现的次数。
ROUGE-L (Longest Common Subsequence (LCS))
其中,$X$ 表示预测句子,$Y$ 表示 target 句子,$LCS(X,Y)$ 表示两个句子的最长公共子序列的长度,$n$ 表示预测句子的长度,$m$ 表示 target 句子的长度。