Skip to Main Content
Table 3: 
Precision (P), recall (R), and the harmonic mean of these (F1) of all baselines, a single annotator, and the super-annotator upper bound. The human performances marked with † are evaluated on a sample of five annotations from the 25-way annotated data introduced in Section 5.
Long answer DevLong answer TestShort answer DevShort answer Test
PRF1PRF1PRF1PRF1
First paragraph 22.2 37.8 27.8 22.3 38.5 28.3  – – – – – – 
Most frequent 43.1 20.0 27.3 40.2 18.4 25.2  – – – – – – 
Closest question 37.7 28.5 32.4 36.2 27.8 31.4  – – – – – – 
 
DocumentQA 47.5 44.7 46.1 48.9 43.3 45.7  38.6 33.2 35.7 40.6 31.0 35.1 
DecAtt + DocReader 52.7 57.0 54.8 54.3 55.7 55.0  34.3 28.9 31.4 31.9 31.1 31.5 
 
Single annotator 80.4 67.6 73.4 – – –  63.4 52.6 57.5 – – – 
Super-annotator 90.0 84.6 87.2 – – –  79.1 72.6 75.7 – – – 
Long answer DevLong answer TestShort answer DevShort answer Test
PRF1PRF1PRF1PRF1
First paragraph 22.2 37.8 27.8 22.3 38.5 28.3  – – – – – – 
Most frequent 43.1 20.0 27.3 40.2 18.4 25.2  – – – – – – 
Closest question 37.7 28.5 32.4 36.2 27.8 31.4  – – – – – – 
 
DocumentQA 47.5 44.7 46.1 48.9 43.3 45.7  38.6 33.2 35.7 40.6 31.0 35.1 
DecAtt + DocReader 52.7 57.0 54.8 54.3 55.7 55.0  34.3 28.9 31.4 31.9 31.1 31.5 
 
Single annotator 80.4 67.6 73.4 – – –  63.4 52.6 57.5 – – – 
Super-annotator 90.0 84.6 87.2 – – –  79.1 72.6 75.7 – – – 
Close Modal

or Create an Account

Close Modal
Close Modal