Skip to Main Content
Table 2: 
Comparison of WER, BLEU, lexical consistency (Lex; §3.1) across several language pairs. We compare against state-of-the-art (SOTA) results under same data conditions by Di Gangi et al. (2019), where cc denotes a cascaded model, dir denotes a direct model. Bold font indicates the best score. Results that are not statistically significantly worse than the best score in the same column are in italics (pairwise bootstrap resampling (Koehn, 2004), p<0.05).
EN→DEEN→ESEN→NLEN→RU
Model↓WER↑BLEU↓LexWERBLEULexWERBLEULexWERBLEULex
SOTA cc 27.0 18.5 – 26.6 22.5 – 26.6 22.2 – 27.0 11.1 – 
SOTA dir – 17.3 – – 20.8 – – 18.8 – – 8.5 – 
Casc 21.6 19.3 10.4 20.5 25.2 8.4 20.6 23.5 10.1 20.5 13.4 11.3 
DirInd 21.6 11.0 21.1 20.5 16.5 17.8 20.6 14.9 20.9 20.5 3.4 29.0 
DirMu 23.6 18.4 13.9 21.7 24.3 11.6 23.2 22.3 14.3 22.4 13.0 13.9 
DirSh 23.6 19.0 14.7 21.3 24.1 11.5 22.0 22.7 14.2 22.3 13.6 13.6 
2St 22.2 20.1 9.9 21.4 24.2 7.8 22.6 23.4 9.4 21.4 14.0 10.7 
Tri 22.2 19.9 9.7 21.0 24.7 7.9 24.4 22.6 8.9 21.2 14.2 10.7 
Concat 21.9 19.2 12.8 20.6 23.7 10.8 21.9 22.8 12.5 21.5 13.3 13.3 
EN→DEEN→ESEN→NLEN→RU
Model↓WER↑BLEU↓LexWERBLEULexWERBLEULexWERBLEULex
SOTA cc 27.0 18.5 – 26.6 22.5 – 26.6 22.2 – 27.0 11.1 – 
SOTA dir – 17.3 – – 20.8 – – 18.8 – – 8.5 – 
Casc 21.6 19.3 10.4 20.5 25.2 8.4 20.6 23.5 10.1 20.5 13.4 11.3 
DirInd 21.6 11.0 21.1 20.5 16.5 17.8 20.6 14.9 20.9 20.5 3.4 29.0 
DirMu 23.6 18.4 13.9 21.7 24.3 11.6 23.2 22.3 14.3 22.4 13.0 13.9 
DirSh 23.6 19.0 14.7 21.3 24.1 11.5 22.0 22.7 14.2 22.3 13.6 13.6 
2St 22.2 20.1 9.9 21.4 24.2 7.8 22.6 23.4 9.4 21.4 14.0 10.7 
Tri 22.2 19.9 9.7 21.0 24.7 7.9 24.4 22.6 8.9 21.2 14.2 10.7 
Concat 21.9 19.2 12.8 20.6 23.7 10.8 21.9 22.8 12.5 21.5 13.3 13.3 
Close Modal

or Create an Account

Close Modal
Close Modal