Skip to Main Content
Table 1: 
Statistics of the different corpora studied. df denotes document frequency, K denotes a thousand, and M denotes a million.
DatasetMinimum df#Tokens Train#Tokens Valid#Tokens TestVocabulary
20Newsgroups 100 604.9 K 5,998 399.6 K 3,102 
30 778.0 K 7,231 512.5 K 8,496 
10 880.3 K 6,769 578.8 K 18,625 
922.3 K 8,494 605.9 K 29,461 
966.3 K 8,600 622.9 K 52,258 
 
New York Times 5,000 226.9 M 13.4 M 26.8 M 9,842 
200 270.1 M 15.9 M 31.8 M 55,627 
100 272.3 M 16.0 M 32.1 M 74,095 
30 274.8 M 16.1 M 32.3 M 124,725 
10 276.0 M 16.1 M 32.5 M 212,237 
DatasetMinimum df#Tokens Train#Tokens Valid#Tokens TestVocabulary
20Newsgroups 100 604.9 K 5,998 399.6 K 3,102 
30 778.0 K 7,231 512.5 K 8,496 
10 880.3 K 6,769 578.8 K 18,625 
922.3 K 8,494 605.9 K 29,461 
966.3 K 8,600 622.9 K 52,258 
 
New York Times 5,000 226.9 M 13.4 M 26.8 M 9,842 
200 270.1 M 15.9 M 31.8 M 55,627 
100 272.3 M 16.0 M 32.1 M 74,095 
30 274.8 M 16.1 M 32.3 M 124,725 
10 276.0 M 16.1 M 32.5 M 212,237 
Close Modal

or Create an Account

Close Modal
Close Modal