Skip to Main Content
Table 8 
Sources and statistics of our extrinsic data set. The NER data sets for Turkish and Russian are down-sampled.
TaskLanguageSourceNumber of tokensOOV%
train dev test dev test 
POS Tagging Finnish Finnish-TDT 162.6K 18.3K 21.K 22.99 22.3 
Dependency Parsing German German-GSD 263.8K 12.5K 16.5K 9.67 10.76 
Russian Russian-SynTagRus 870.5K 118.5K 117.3K 8.44 8.68 
Spanish Spanish-AnCora 444.6K 52.3K 52.6K 4.92 4.91 
Turkish Turkish-IMST 37.9K 10.K 10.K 24.14 w23.04 
  
NER German Germeval-2014 (Benikova et al. 2014) 452.9K 41.7K 96.5K 11.34 11.29 
Russian WikiNER (Ghaddar and Langlais 2017) 169.1K 55.4K 55.2K 16.65 16.75 
Turkish TWNERTC (Sahin et al. 2017) 272.1K 91.3K 90.9K 14.48 14.97 
Spanish CoNLL-2002 (Sang and De Meulder 2003) 264.7K 52.9K 51.5K 7.43 5.63 
Finnish FinNER 180.1K 13.6K 46.4K 18.9 19.7 
  
SRL Finnish Finnish PropBank (Haverinen et al. 2015) 162.7K 9.2K 9.1K 22.77 23.05 
German CoNLL-09 (Hajič et al. 2009) 648.7K 32.K 31.6K 8.43 8.69 
Spanish CoNLL-09 (Hajič et al. 2009) 427.4K 50.4K 50.6K 6.06 6.16 
Turkish Turkish PropBank (Şahin and Adali 2018) 44K 9.7K 9.3K 22.79 21.82 
  
XNLI German XNLI (Conneau et al. 2018b) 13.7M 77.1K 156.K 5.46 5.57 
Russian 12.3M 70.9K 143.7K 7.61 7.75 
Spanish 13.8M 81.8K 165.2K 3.17 3.15 
Turkish 10.4M 62.4K 126.6K 10.15 10.3 
TaskLanguageSourceNumber of tokensOOV%
train dev test dev test 
POS Tagging Finnish Finnish-TDT 162.6K 18.3K 21.K 22.99 22.3 
Dependency Parsing German German-GSD 263.8K 12.5K 16.5K 9.67 10.76 
Russian Russian-SynTagRus 870.5K 118.5K 117.3K 8.44 8.68 
Spanish Spanish-AnCora 444.6K 52.3K 52.6K 4.92 4.91 
Turkish Turkish-IMST 37.9K 10.K 10.K 24.14 w23.04 
  
NER German Germeval-2014 (Benikova et al. 2014) 452.9K 41.7K 96.5K 11.34 11.29 
Russian WikiNER (Ghaddar and Langlais 2017) 169.1K 55.4K 55.2K 16.65 16.75 
Turkish TWNERTC (Sahin et al. 2017) 272.1K 91.3K 90.9K 14.48 14.97 
Spanish CoNLL-2002 (Sang and De Meulder 2003) 264.7K 52.9K 51.5K 7.43 5.63 
Finnish FinNER 180.1K 13.6K 46.4K 18.9 19.7 
  
SRL Finnish Finnish PropBank (Haverinen et al. 2015) 162.7K 9.2K 9.1K 22.77 23.05 
German CoNLL-09 (Hajič et al. 2009) 648.7K 32.K 31.6K 8.43 8.69 
Spanish CoNLL-09 (Hajič et al. 2009) 427.4K 50.4K 50.6K 6.06 6.16 
Turkish Turkish PropBank (Şahin and Adali 2018) 44K 9.7K 9.3K 22.79 21.82 
  
XNLI German XNLI (Conneau et al. 2018b) 13.7M 77.1K 156.K 5.46 5.57 
Russian 12.3M 70.9K 143.7K 7.61 7.75 
Spanish 13.8M 81.8K 165.2K 3.17 3.15 
Turkish 10.4M 62.4K 126.6K 10.15 10.3 
Close Modal

or Create an Account

Close Modal
Close Modal