Skip to Main Content
Table 10
Correlation with human judgments at sentence level across various data sets with different types of human judgments. Kendall tau is reported for WMT16 Relative Ranking data set, and absolute Pearson correlation coefficient is reported for the rest of the data sets.
WMT16-DAWMT16-RAWMT17MTC-AMTC-FGALEEAMTEAMT-PE
Meteor .570 .362 .358 .450 .262 .442 .280 .742 
TERp-A .570 .356 .370 .435 .268 .468 .266 .716 
ROUGE-SU* .551 .335 .379 .398 .249 .400 .254 .717 
ChrF3 .541 .366 .351 .429 .222 .392 .253 .722 
NIST-4 .508 .301 .335 .391 .212 .396 .224 .709 
BLEU-4 .488 .289 .351 .298 .201 .353 .260 .733 
TER .462 .293 .260 .275 .195 .360 .214 .728 
WER .456 .290 .272 .246 .192 .353 .218 .737 
PER .422 .266 .226 .307 .180 .305 .167 .664 
 
UPF-Cobalt .566 .375 .384 .460 .281 .467 .320 .717 
CP-Oc(*) .527 .323 .362 .365 .229 .409 .263 .723 
SP-lNIST .512 .315 .334 .409 .221 .391 .226 .708 
DP-Oc(*) .424 .235 .365 .223 .164 .323 .232 .559 
SR-Or(*) .371 .208 .259 .278 .211 .295 .149 .408 
 
BEER .534 .366 .330 .415 .225 .386 .210 .737 
WMT16-DAWMT16-RAWMT17MTC-AMTC-FGALEEAMTEAMT-PE
Meteor .570 .362 .358 .450 .262 .442 .280 .742 
TERp-A .570 .356 .370 .435 .268 .468 .266 .716 
ROUGE-SU* .551 .335 .379 .398 .249 .400 .254 .717 
ChrF3 .541 .366 .351 .429 .222 .392 .253 .722 
NIST-4 .508 .301 .335 .391 .212 .396 .224 .709 
BLEU-4 .488 .289 .351 .298 .201 .353 .260 .733 
TER .462 .293 .260 .275 .195 .360 .214 .728 
WER .456 .290 .272 .246 .192 .353 .218 .737 
PER .422 .266 .226 .307 .180 .305 .167 .664 
 
UPF-Cobalt .566 .375 .384 .460 .281 .467 .320 .717 
CP-Oc(*) .527 .323 .362 .365 .229 .409 .263 .723 
SP-lNIST .512 .315 .334 .409 .221 .391 .226 .708 
DP-Oc(*) .424 .235 .365 .223 .164 .323 .232 .559 
SR-Or(*) .371 .208 .259 .278 .211 .295 .149 .408 
 
BEER .534 .366 .330 .415 .225 .386 .210 .737 
Close Modal

or Create an Account

Close Modal
Close Modal