Skip to Main Content
Table 3

Results on WMT12 at the segment-level (calculated on 11,021 pairs for cs-en, 11,934 for de-en, 9,796 for es-en, and 11,594 for fr-en): untuned and tuned versions. Kendall's τ with human judgments. Improvements over the baseline are shown in bold, and statistically significant improvements are marked with ** and * for p-value <0.01 and p-value <0.05, respectively.

MetricsOrig.UntunedTuned
+DR+DR-lex+DR+DR-lex
I DR −0.433 – – – – 
DR-lex 0.133 – – – – 
 
II spede07p0.254 0.190 0.223 0.253 0.254 
Meteor 0.247 0.178 0.217 0.250 0.251 
AMBER 0.229 0.180 0.216 0.230 0.232 
SIMPBLEU 0.172 0.141 0.191** 0.181** 0.199** 
XEnErrCats 0.165 0.132 0.185** 0.175** 0.194** 
pos0.154 0.125 0.201** 0.160** 0.201** 
WordBlockEC 0.153 0.122 0.181** 0.161** 0.189** 
BlockErrCats 0.074 0.068 0.151** 0.087** 0.150** 
TerrorCat −0.186 0.111 0.104** 0.181** 0.196** 
 
III BLEU 0.185 0.154 0.190 0.189 0.194
NIST 0.214 0.172 0.206 0.222** 0.224** 
Rouge 0.185 0.144 0.201** 0.196** 0.218** 
TER 0.217 0.179 0.229** 0.229** 0.246** 
MetricsOrig.UntunedTuned
+DR+DR-lex+DR+DR-lex
I DR −0.433 – – – – 
DR-lex 0.133 – – – – 
 
II spede07p0.254 0.190 0.223 0.253 0.254 
Meteor 0.247 0.178 0.217 0.250 0.251 
AMBER 0.229 0.180 0.216 0.230 0.232 
SIMPBLEU 0.172 0.141 0.191** 0.181** 0.199** 
XEnErrCats 0.165 0.132 0.185** 0.175** 0.194** 
pos0.154 0.125 0.201** 0.160** 0.201** 
WordBlockEC 0.153 0.122 0.181** 0.161** 0.189** 
BlockErrCats 0.074 0.068 0.151** 0.087** 0.150** 
TerrorCat −0.186 0.111 0.104** 0.181** 0.196** 
 
III BLEU 0.185 0.154 0.190 0.189 0.194
NIST 0.214 0.172 0.206 0.222** 0.224** 
Rouge 0.185 0.144 0.201** 0.196** 0.218** 
TER 0.217 0.179 0.229** 0.229** 0.246** 
Close Modal

or Create an Account

Close Modal
Close Modal