Skip to Main Content
Table 5 
Statistics for the resources used during the creation of type and token-level probing tasks. |π|: Number of inflection paradigms, #form: Number of inflected forms, N: Noun, V: Verb, A: Adjective, amb%: Ratio of ambiguous forms, #sent: Number of sentences, #token: Number of tokens, |sent|: Average sentence length, V (%): Vocabulary size (#token/V).
 Type-levelToken-level
|π|#formtypesamb%#sent#token|sent|V (%)amb%
Finnish 57K 2.5M N, V, A 4.87 31K 339K 10.81 83K (4.07) 17.62 
Turkish 3.5K 275K N, V, A 7.76 6K 67K 11.25 22K (3.06) 19.28 
Russian 28K 474K N, V, A 12.51 63K 1.1M 17.89 135K (8.29) 23.75 
German 15K 179K N, V 25.92 14K 263K 18.74 49K (5.39) 27.47 
Spanish 5.5K 383K 10.75 30K 883K 29.12 68K (13.04) 35.1 
 Type-levelToken-level
|π|#formtypesamb%#sent#token|sent|V (%)amb%
Finnish 57K 2.5M N, V, A 4.87 31K 339K 10.81 83K (4.07) 17.62 
Turkish 3.5K 275K N, V, A 7.76 6K 67K 11.25 22K (3.06) 19.28 
Russian 28K 474K N, V, A 12.51 63K 1.1M 17.89 135K (8.29) 23.75 
German 15K 179K N, V 25.92 14K 263K 18.74 49K (5.39) 27.47 
Spanish 5.5K 383K 10.75 30K 883K 29.12 68K (13.04) 35.1 
Close Modal

or Create an Account

Close Modal
Close Modal