Skip to Main Content
Table 3: 

Statistics of our datasets including their source, number of sentences in each split, number of annotators, number of entities of each label type, percentage of tokens that are named entities, and total number of tokens.

LanguageData SourceTrain/ dev/ test# Anno.PERORGLOCDATE% of Entities in Tokens# Tokens
Amharic DW & BBC 1750/ 250/ 500 730 403 1,420 580 15.13 37,032 
Hausa VOA Hausa 1903/ 272/ 545 1,490 766 2,779 922 12.17 80,152 
Igbo BBC Igbo 2233/ 319/ 638 1,603 1,292 1,677 690 13.15 61,668 
Kinyarwanda IGIHE news 2110/ 301/ 604 1,366 1,038 2,096 792 12.85 68,819 
Luganda BUKEDDE news 2003/ 200/ 401 1,868 838 943 574 14.81 46,615 
Luo Ramogi FM news 644/ 92/ 185 557 286 666 343 14.95 26,303 
Nigerian-Pidgin BBC Pidgin 2100/ 300/ 600 2,602 1,042 1,317 1,242 13.25 76,063 
Swahili VOA Swahili 2104/ 300/ 602 1,702 960 2,842 940 12.48 79,272 
Wolof Lu Defu Waxu & Saabal 1,871/ 267/ 536 731 245 836 206 6.02 52,872 
Yorùbá GV & VON news 2124/ 303/ 608 1,039 835 1,627 853 11.57 83,285 
LanguageData SourceTrain/ dev/ test# Anno.PERORGLOCDATE% of Entities in Tokens# Tokens
Amharic DW & BBC 1750/ 250/ 500 730 403 1,420 580 15.13 37,032 
Hausa VOA Hausa 1903/ 272/ 545 1,490 766 2,779 922 12.17 80,152 
Igbo BBC Igbo 2233/ 319/ 638 1,603 1,292 1,677 690 13.15 61,668 
Kinyarwanda IGIHE news 2110/ 301/ 604 1,366 1,038 2,096 792 12.85 68,819 
Luganda BUKEDDE news 2003/ 200/ 401 1,868 838 943 574 14.81 46,615 
Luo Ramogi FM news 644/ 92/ 185 557 286 666 343 14.95 26,303 
Nigerian-Pidgin BBC Pidgin 2100/ 300/ 600 2,602 1,042 1,317 1,242 13.25 76,063 
Swahili VOA Swahili 2104/ 300/ 602 1,702 960 2,842 940 12.48 79,272 
Wolof Lu Defu Waxu & Saabal 1,871/ 267/ 536 731 245 836 206 6.02 52,872 
Yorùbá GV & VON news 2124/ 303/ 608 1,039 835 1,627 853 11.57 83,285 
Close Modal

or Create an Account

Close Modal
Close Modal