Skip to Main Content
Table 2: 

Evaluation on RotoWire and MLB test sets; relation generation (RG) count (#) and precision (P%), content selection (CS) precision (P%), recall (R%) and F-measure (F%), content ordering (CO) in normalized Damerau-Levenshtein distance (DLD%), and BLEU.

RotoWireRGCSCOBLEU
#P%P%R%F%DLD%
Templ 54.3 99.9 27.1 57.7 36.9 13.1 8.46 
WS-2017 34.1 75.1 20.3 36.3 26.1 12.4 14.19 
ED+CC 35.9 82.6 19.8 33.8 24.9 12.0 14.99 
NCP+CC 40.8 87.6 28.0 51.1 36.2 15.8 16.50 
ENT 32.7 91.7 34.7 48.5 40.5 16.6 16.12 
RBF-2020 44.9 89.5 23.9 47.0 31.7 14.3 17.16 
 
Macro−Plan(4) 42.1 97.6 34.1 57.8 42.9 17.7 15.46 
36.2 81.3 22.1 38.6 28.1 12.1 14.00 
 
MLB RG CS CO BLEU 
P% P% R% F% DLD% 
Templ 62.3 99.9 21.6 55.2 31.0 11.0 4.12 
ED+CC 32.5 91.3 27.8 40.6 33.0 17.1 9.68 
NCP+CC 19.6 81.3 44.5 44.1 44.3 21.9 9.68 
ENT 23.8 81.1 40.9 49.5 44.8 20.7 11.50 
 
Macro−Plan(SP,4) 30.8 94.4 40.8 54.9 46.8 21.8 12.62 
25.1 92.7 40.0 44.6 42.2 21.9 11.09 
RotoWireRGCSCOBLEU
#P%P%R%F%DLD%
Templ 54.3 99.9 27.1 57.7 36.9 13.1 8.46 
WS-2017 34.1 75.1 20.3 36.3 26.1 12.4 14.19 
ED+CC 35.9 82.6 19.8 33.8 24.9 12.0 14.99 
NCP+CC 40.8 87.6 28.0 51.1 36.2 15.8 16.50 
ENT 32.7 91.7 34.7 48.5 40.5 16.6 16.12 
RBF-2020 44.9 89.5 23.9 47.0 31.7 14.3 17.16 
 
Macro−Plan(4) 42.1 97.6 34.1 57.8 42.9 17.7 15.46 
36.2 81.3 22.1 38.6 28.1 12.1 14.00 
 
MLB RG CS CO BLEU 
P% P% R% F% DLD% 
Templ 62.3 99.9 21.6 55.2 31.0 11.0 4.12 
ED+CC 32.5 91.3 27.8 40.6 33.0 17.1 9.68 
NCP+CC 19.6 81.3 44.5 44.1 44.3 21.9 9.68 
ENT 23.8 81.1 40.9 49.5 44.8 20.7 11.50 
 
Macro−Plan(SP,4) 30.8 94.4 40.8 54.9 46.8 21.8 12.62 
25.1 92.7 40.0 44.6 42.2 21.9 11.09 
Close Modal

or Create an Account

Close Modal
Close Modal