Skip to Main Content
Table 4 
Statistics of training Wikipedia corpus and Wiktionary.
English (en)Paired languageWiktionary
  #docs #tokens #types #docs #tokens #types #entries 
HighLan 
ar 2,000 616,524 48,133 2,000 181,946 25,510 16,127 
de 2,000 332,794 35,921 2,000 254,179 55,610 32,225 
es 2,000 369,181 37,100 2,000 239,189 30,258 31,563 
ru 2,000 410,530 39,870 2,000 227,987 37,928 33,574 
zh 2,000 392,745 38,217 2,000 168,804 44,228 23,276 
 
LowLan 
am 2,000 3,589,268 161,879 2,000 251,708 65,368 4,588 
ay 2,000 1,758,811 84,064 2,000 169,439 24,136 1,982 
mk 2,000 1,777,081 100,767 2,000 489,953 87,329 6,895 
sw 2,000 2,513,838 143,691 2,000 353,038 46,359 15,257 
tl 2,000 2,017,643 261,919 2,000 232,891 41,618 6,552 
English (en)Paired languageWiktionary
  #docs #tokens #types #docs #tokens #types #entries 
HighLan 
ar 2,000 616,524 48,133 2,000 181,946 25,510 16,127 
de 2,000 332,794 35,921 2,000 254,179 55,610 32,225 
es 2,000 369,181 37,100 2,000 239,189 30,258 31,563 
ru 2,000 410,530 39,870 2,000 227,987 37,928 33,574 
zh 2,000 392,745 38,217 2,000 168,804 44,228 23,276 
 
LowLan 
am 2,000 3,589,268 161,879 2,000 251,708 65,368 4,588 
ay 2,000 1,758,811 84,064 2,000 169,439 24,136 1,982 
mk 2,000 1,777,081 100,767 2,000 489,953 87,329 6,895 
sw 2,000 2,513,838 143,691 2,000 353,038 46,359 15,257 
tl 2,000 2,017,643 261,919 2,000 232,891 41,618 6,552 
Close Modal

or Create an Account

Close Modal
Close Modal