Skip to Main Content
Table 1: 
Statistics of the datasets used in the experiments. Note that in ACE-2005, sentences are not originally split. We report the numbers of sentences based on the preprocessing with the Stanford CoreNLP Manning et al. (2014).
ACE-2005GENIA
Train(%)Dev(%)Test(%)Train(%)Dev(%)Test(%)
# documents 370  43  51  –  –  –  
# sentences (7,285)  (968)  (1,058)  15,022  1,669  1,855  
# mentions 24,827  3,234  3,041  47,027  4,469  5,600  
- 1st level 21,966 (88) 2,900 (90) 2,686 (88) 44,611 (95) 4,239 (95) 5,273 (94) 
- 2nd level 2,635 (11) 316 (10) 323 (11) 2393 (5) 230 (5) 327 (6) 
- 3rd level 215 (1) 18 (1) 30 (1) 23 (0) (0) (0) 
- 4th level (0) (0) (0) (0) (0) (0) 
# labels per token (d1.06  1.05  1.05  1.05  1.05  1.05  
ACE-2005GENIA
Train(%)Dev(%)Test(%)Train(%)Dev(%)Test(%)
# documents 370  43  51  –  –  –  
# sentences (7,285)  (968)  (1,058)  15,022  1,669  1,855  
# mentions 24,827  3,234  3,041  47,027  4,469  5,600  
- 1st level 21,966 (88) 2,900 (90) 2,686 (88) 44,611 (95) 4,239 (95) 5,273 (94) 
- 2nd level 2,635 (11) 316 (10) 323 (11) 2393 (5) 230 (5) 327 (6) 
- 3rd level 215 (1) 18 (1) 30 (1) 23 (0) (0) (0) 
- 4th level (0) (0) (0) (0) (0) (0) 
# labels per token (d1.06  1.05  1.05  1.05  1.05  1.05  
Close Modal

or Create an Account

Close Modal
Close Modal