Table 10: 

Miscellaneous errors in language codes.

DatasetCode in CorpusCorrect Code
CCAligned zz zza 
CCAligned sz szl 
CCAligned ns nso 
CCAligned cb ckb 
CCAligned tz ber 
CCAligned qa shn 
CCAligned qd kac 
CCAligned cx ceb 
 
mC4 iw he 
 
OSCAR eml egl 
OSCAR als gsw 
OSCAR sh hbs 
 
WikiMatrix sh hbs 
DatasetCode in CorpusCorrect Code
CCAligned zz zza 
CCAligned sz szl 
CCAligned ns nso 
CCAligned cb ckb 
CCAligned tz ber 
CCAligned qa shn 
CCAligned qd kac 
CCAligned cx ceb 
 
mC4 iw he 
 
OSCAR eml egl 
OSCAR als gsw 
OSCAR sh hbs 
 
WikiMatrix sh hbs 
Close Modal

or Create an Account

Close Modal
Close Modal