Table 1: 

Dataset information. “Family” indicates if Indo-European (IE) or not. “Order” indicates dominant word orders according to WALS (Haspelmath et al., 2005). “Train” is the number of training sentences.

LanguageTreebankFamilyOrderTrain
Arabic PADT non-IE VSO 6.1k 
Basque BDT non-IE SOV 5.4k 
Chinese GSD non-IE SVO 4.0k 
English EWT IE SVO 12.5k 
Finnish TDT non-IE SVO 12.2k 
Hebrew HTB non-IE SVO 5.2k 
Hindi HDTB IE SOV 13.3k 
Italian ISDT IE SVO 13.1k 
Japanese GSD non-IE SOV 7.1k 
Korean GSD non-IE SOV 4.4k 
Russian SynTagRus IE SVO 48.8k 
Swedish Talbanken IE SVO 4.3k 
Turkish IMST non-IE SOV 3.7k 
LanguageTreebankFamilyOrderTrain
Arabic PADT non-IE VSO 6.1k 
Basque BDT non-IE SOV 5.4k 
Chinese GSD non-IE SVO 4.0k 
English EWT IE SVO 12.5k 
Finnish TDT non-IE SVO 12.2k 
Hebrew HTB non-IE SVO 5.2k 
Hindi HDTB IE SOV 13.3k 
Italian ISDT IE SVO 13.1k 
Japanese GSD non-IE SOV 7.1k 
Korean GSD non-IE SOV 4.4k 
Russian SynTagRus IE SVO 48.8k 
Swedish Talbanken IE SVO 4.3k 
Turkish IMST non-IE SOV 3.7k 
Close Modal

or Create an Account

Close Modal
Close Modal