Table 3: 
Data statistics of UD Version 2.1 Treebanks. The values in the {train, dev, test} columns are the number of tokens in the splits. |T| gives the number of distinct tags (pos + morphological features), |F| the number of distinct feature values. —R— gives the unseen tag percentage in the test set.
langtraindevtest|T||F||R|langtraindevtest|T||F||R|
DA 80378 10332 10023 159 44 0.03% SV 66645 9797 20377 211 40 0.06% 
RU 75964 11877 11548 734 39 0.27% BG 124336 16089 15724 439 45 0.03% 
FI 162621 18290 21041 2243 93 0.68% HU 20166 11418 10448 716 73 1.03% 
ES 384554 37349 12069 404 46 0.03% PT 211820 11158 10468 380 47 0.03% 
langtraindevtest|T||F||R|langtraindevtest|T||F||R|
DA 80378 10332 10023 159 44 0.03% SV 66645 9797 20377 211 40 0.06% 
RU 75964 11877 11548 734 39 0.27% BG 124336 16089 15724 439 45 0.03% 
FI 162621 18290 21041 2243 93 0.68% HU 20166 11418 10448 716 73 1.03% 
ES 384554 37349 12069 404 46 0.03% PT 211820 11158 10468 380 47 0.03% 
Close Modal

or Create an Account

Close Modal
Close Modal