Skip to Main Content
Table 1: 
List of the 93 languages along with their training size, the resulting similarity error rate on Tatoeba, and the number of sentences in it. Dashes denote language pairs excluded for containing fewer than 100 test sentences.
 af am ar ay az be ber bg bn br bs ca cbk cs da de 
train sent. 67k 88k 8.2M 14k 254k 5k 62k 4.9M 913k 29k 4.2M 813k 1k 5.5M 7.9M 8.7M 
enxx err. 11.20 60.71 8.30 n/a 44.10 31.20 29.80 4.50 10.80 83.50 3.95 4.00 24.20 3.10 3.90 0.90 
xxen err. 9.90 55.36 7.80 n/a 23.90 36.50 33.70 5.40 10.00 84.90 3.11 4.20 21.70 3.80 4.00 1.00 
test sent. 1000 168 1000 – 1000 1000 1000 1000 1000 1000 354 1000 1000 1000 1000 1000 
 
 dtp dv el en eo es et eu fi fr ga gl ha he hi hr 
train sent. 1k 90k 6.5M 2.6M 397k 4.8M 5.3M 1.2M 7.9M 8.8M 732 349k 127k 4.1M 288k 4.0M 
enxx err. 92.10 n/a 5.30 n/a 2.70 1.90 3.20 5.70 3.70 4.40 93.80 4.60 n/a 8.10 5.80 2.80 
xxen err. 93.50 n/a 4.80 n/a 2.80 2.10 3.40 5.00 3.70 4.30 95.80 4.40 n/a 7.60 4.80 2.70 
test sent. 1000 – 1000 – 1000 1000 1000 1000 1000 1000 1000 1000 – 1000 1000 1000 
 
 hu hy ia id ie io is it ja ka kab kk km ko ku kw 
train sent. 5.3M 6k 9k 4.3M 3k 3k 2.0M 8.3M 3.2M 296k 15k 4k 625 1.4M 50k 2k 
enxx err. 3.90 59.97 5.40 5.20 14.70 17.40 4.40 4.60 3.90 60.32 39.10 80.17 77.01 10.60 80.24 91.90 
xxen err. 4.00 67.79 4.10 5.80 12.80 15.20 4.40 4.80 5.40 67.83 44.70 82.61 81.72 11.50 85.37 93.20 
test sent. 1000 742 1000 1000 1000 1000 1000 1000 1000 746 1000 575 722 1000 410 1000 
 
 kzj la lfn lt lv mg mhr mk ml mr ms my nb nds nl oc 
train sent. 560 19k 2k 3.2M 2.0M 355k 1k 4.2M 373k 31k 2.9M 2k 4.1M 12k 8.4M 3k 
enxx err. 91.60 41.60 35.90 4.10 4.50 n/a 87.70 5.20 3.35 9.00 3.40 n/a 1.30 18.60 3.10 39.20 
xxen err. 94.10 41.50 35.10 3.40 4.70 n/a 91.50 5.40 2.91 8.00 3.80 n/a 1.10 15.60 4.30 38.40 
test sent. 1000 1000 1000 1000 1000 – 1000 1000 687 1000 1000 – 1000 1000 1000 1000 
 
 pl ps pt ro ru sd si sk sl so sq sr sv sw ta te 
train sent. 5.5M 4.9M 8.3M 4.9M 9.3M 91k 796k 5.2M 5.2M 85k 3.2M 4.0M 7.8M 173k 42k 33k 
enxx err. 2.00 7.20 4.70 2.50 4.90 n/a n/a 3.10 4.50 n/a 1.80 4.30 3.60 45.64 31.60 18.38 
xxen err. 2.40 6.00 4.90 2.70 5.90 n/a n/a 3.70 3.77 n/a 2.30 5.00 3.20 39.23 29.64 22.22 
test sent. 1000 1000 1000 1000 1000 – – 1000 823 – 1000 1000 1000 390 307 234 
 
 tg th tl tr tt ug uk ur uz vi wuu yue zh 
train sent. 124k 4.1M 36k 5.7M 119k 88k 1.4M 746k 118k 4.0M 2k 4k 8.3M 
enxx err. n/a 4.93 47.40 2.30 72.00 59.90 5.80 20.00 82.24 3.40 25.80 37.00 4.10 
xxen err. n/a 4.20 51.50 2.60 65.70 49.60 5.10 16.20 80.37 3.00 25.20 38.90 5.00 
test sent. – 548 1000 1000 1000 1000 1000 1000 428 1000 1000 1000 1000 
 af am ar ay az be ber bg bn br bs ca cbk cs da de 
train sent. 67k 88k 8.2M 14k 254k 5k 62k 4.9M 913k 29k 4.2M 813k 1k 5.5M 7.9M 8.7M 
enxx err. 11.20 60.71 8.30 n/a 44.10 31.20 29.80 4.50 10.80 83.50 3.95 4.00 24.20 3.10 3.90 0.90 
xxen err. 9.90 55.36 7.80 n/a 23.90 36.50 33.70 5.40 10.00 84.90 3.11 4.20 21.70 3.80 4.00 1.00 
test sent. 1000 168 1000 – 1000 1000 1000 1000 1000 1000 354 1000 1000 1000 1000 1000 
 
 dtp dv el en eo es et eu fi fr ga gl ha he hi hr 
train sent. 1k 90k 6.5M 2.6M 397k 4.8M 5.3M 1.2M 7.9M 8.8M 732 349k 127k 4.1M 288k 4.0M 
enxx err. 92.10 n/a 5.30 n/a 2.70 1.90 3.20 5.70 3.70 4.40 93.80 4.60 n/a 8.10 5.80 2.80 
xxen err. 93.50 n/a 4.80 n/a 2.80 2.10 3.40 5.00 3.70 4.30 95.80 4.40 n/a 7.60 4.80 2.70 
test sent. 1000 – 1000 – 1000 1000 1000 1000 1000 1000 1000 1000 – 1000 1000 1000 
 
 hu hy ia id ie io is it ja ka kab kk km ko ku kw 
train sent. 5.3M 6k 9k 4.3M 3k 3k 2.0M 8.3M 3.2M 296k 15k 4k 625 1.4M 50k 2k 
enxx err. 3.90 59.97 5.40 5.20 14.70 17.40 4.40 4.60 3.90 60.32 39.10 80.17 77.01 10.60 80.24 91.90 
xxen err. 4.00 67.79 4.10 5.80 12.80 15.20 4.40 4.80 5.40 67.83 44.70 82.61 81.72 11.50 85.37 93.20 
test sent. 1000 742 1000 1000 1000 1000 1000 1000 1000 746 1000 575 722 1000 410 1000 
 
 kzj la lfn lt lv mg mhr mk ml mr ms my nb nds nl oc 
train sent. 560 19k 2k 3.2M 2.0M 355k 1k 4.2M 373k 31k 2.9M 2k 4.1M 12k 8.4M 3k 
enxx err. 91.60 41.60 35.90 4.10 4.50 n/a 87.70 5.20 3.35 9.00 3.40 n/a 1.30 18.60 3.10 39.20 
xxen err. 94.10 41.50 35.10 3.40 4.70 n/a 91.50 5.40 2.91 8.00 3.80 n/a 1.10 15.60 4.30 38.40 
test sent. 1000 1000 1000 1000 1000 – 1000 1000 687 1000 1000 – 1000 1000 1000 1000 
 
 pl ps pt ro ru sd si sk sl so sq sr sv sw ta te 
train sent. 5.5M 4.9M 8.3M 4.9M 9.3M 91k 796k 5.2M 5.2M 85k 3.2M 4.0M 7.8M 173k 42k 33k 
enxx err. 2.00 7.20 4.70 2.50 4.90 n/a n/a 3.10 4.50 n/a 1.80 4.30 3.60 45.64 31.60 18.38 
xxen err. 2.40 6.00 4.90 2.70 5.90 n/a n/a 3.70 3.77 n/a 2.30 5.00 3.20 39.23 29.64 22.22 
test sent. 1000 1000 1000 1000 1000 – – 1000 823 – 1000 1000 1000 390 307 234 
 
 tg th tl tr tt ug uk ur uz vi wuu yue zh 
train sent. 124k 4.1M 36k 5.7M 119k 88k 1.4M 746k 118k 4.0M 2k 4k 8.3M 
enxx err. n/a 4.93 47.40 2.30 72.00 59.90 5.80 20.00 82.24 3.40 25.80 37.00 4.10 
xxen err. n/a 4.20 51.50 2.60 65.70 49.60 5.10 16.20 80.37 3.00 25.20 38.90 5.00 
test sent. – 548 1000 1000 1000 1000 1000 1000 428 1000 1000 1000 1000 
Close Modal

or Create an Account

Close Modal
Close Modal