Table 1: 

Comparison of GEC corpora in size, token error rate, domain, and number of reference annotations in the test portion. SL = second language learners.

LanguageCorpusSentencesErr. r.Domain# Refs.
English Lang-8 1 147 451 14.1% SL 
NUCLE 57 151 6.6% SL 
FCE 33 236 11.5% SL 
W&I+LOCNESS 43 169 11.8% SL, native students 
CoNLL-2014 test 1 312 8.2% SL 2,10,8 
JFLEG 1 511 — SL 
GMEG 6 000 — web, formal articles, SL 
AESW over 1M — scientific writing 
CWEB 13 574 ∼2% web 
 
Czech AKCES-GEC 47 371 21.4% SL essays, Romani ethnolect of Czech 
German Falko-MERLIN 24 077 16.8% SL essays 
Russian RULEC-GEC 12 480 6.4% SL, heritage speakers 
Spanish COWS-L2H 12 336 — SL, heritage speakers 
Ukrainian UA-GEC 20 715 7.1% natives/SL, translations and personal texts 
Romanian RONACC 10 119 — native speakers transcriptions 
LanguageCorpusSentencesErr. r.Domain# Refs.
English Lang-8 1 147 451 14.1% SL 
NUCLE 57 151 6.6% SL 
FCE 33 236 11.5% SL 
W&I+LOCNESS 43 169 11.8% SL, native students 
CoNLL-2014 test 1 312 8.2% SL 2,10,8 
JFLEG 1 511 — SL 
GMEG 6 000 — web, formal articles, SL 
AESW over 1M — scientific writing 
CWEB 13 574 ∼2% web 
 
Czech AKCES-GEC 47 371 21.4% SL essays, Romani ethnolect of Czech 
German Falko-MERLIN 24 077 16.8% SL essays 
Russian RULEC-GEC 12 480 6.4% SL, heritage speakers 
Spanish COWS-L2H 12 336 — SL, heritage speakers 
Ukrainian UA-GEC 20 715 7.1% natives/SL, translations and personal texts 
Romanian RONACC 10 119 — native speakers transcriptions 
Close Modal

or Create an Account

Close Modal
Close Modal