Skip to Main Content
Table 5: 
Summarization results of different models and their initialization setups. We compare our setups (the bottom block) against both non-pre-trained (the top block) and pre-trained (the middle block) models on various datasets: the Lead baseline, PtGen (See et al., 2017), ConvS2S (Gehring et al., 2017), MMN (Kim et al., 2019), Bottom-Up (Gehrmann et al., 2018), MASS (Song et al., 2019), TransLM (Khandelwal et al., 2019), and UniLM (Dong et al., 2019). The Lead results for the CNN/DailyMail dataset is taken from Narayan et al. (2018b), whereas Lead, PtGen, and ConvS2S results on the BBC dataset are taken from Narayan et al. (2018a). Our best results are boldfaced and the best results on the datasets are italicized.
 Gigaword CNN/DailyMail BBC XSum 
 R-1 R-2 R-L R-1 R-2 R-L R-1 R-2 R-L 
Lead – – – 39.60 17.70 36.20 16.30 1.61 11.95 
PtGen – – – 39.53 17.28 36.38 29.70 9.21 23.24 
ConvS2S 35.88 17.48 33.29 – – – 31.89 11.54 25.75 
MMN – – – – – – 32.00 12.10 26.00 
Bottom-Up – – – 41.22 18.68 38.34 – – – 
 
MASS 38.73 19.71 35.96 – – – – – – 
TransLM – – – 39.65 17.74 36.85 – – – 
UniLM – – – 43.47 20.30 40.63 – – – 
 
Initialized with the base checkpoint (12 layers) 
rnd2rnd 36.94 18.71 34.45 35.77 14.00 32.96 30.90 10.23 24.24 
bert2rnd 37.71 19.26 35.26 38.74 17.76 35.95 38.42 15.83 30.80 
rnd2bert 37.01 18.91 34.51 36.65 15.55 33.97 32.44 11.52 25.65 
bert2bert 38.01 19.68 35.58 39.02 17.84 36.29 37.53 15.24 30.05 
bertShare 38.13 19.81 35.62 39.09 18.10 36.33 38.52 16.12 31.13 
robertaShare 38.21 19.70 35.44 40.10 18.95 37.39 39.87 17.50 32.37 
gpt 36.04 18.44 33.67 37.26 15.83 34.47 22.21 4.89 16.69 
rnd2gpt 36.21 18.39 33.83 32.08 8.81 29.03 28.48 8.77 22.30 
bert2gpt 36.77 18.23 34.24 25.20 4.96 22.99 27.79 8.37 21.91 
roberta2gpt 37.94 19.21 35.42 36.35 14.72 33.79 19.91 5.20 15.88 
 
Initialized with the large checkpoint (24 layers) 
bertShare 38.35 19.80 35.66 39.83 17.69 37.01 38.93 16.35 31.52 
robertaShare 38.62 19.78 35.94 40.31 18.91 37.62 41.45 18.79 33.90 
 Gigaword CNN/DailyMail BBC XSum 
 R-1 R-2 R-L R-1 R-2 R-L R-1 R-2 R-L 
Lead – – – 39.60 17.70 36.20 16.30 1.61 11.95 
PtGen – – – 39.53 17.28 36.38 29.70 9.21 23.24 
ConvS2S 35.88 17.48 33.29 – – – 31.89 11.54 25.75 
MMN – – – – – – 32.00 12.10 26.00 
Bottom-Up – – – 41.22 18.68 38.34 – – – 
 
MASS 38.73 19.71 35.96 – – – – – – 
TransLM – – – 39.65 17.74 36.85 – – – 
UniLM – – – 43.47 20.30 40.63 – – – 
 
Initialized with the base checkpoint (12 layers) 
rnd2rnd 36.94 18.71 34.45 35.77 14.00 32.96 30.90 10.23 24.24 
bert2rnd 37.71 19.26 35.26 38.74 17.76 35.95 38.42 15.83 30.80 
rnd2bert 37.01 18.91 34.51 36.65 15.55 33.97 32.44 11.52 25.65 
bert2bert 38.01 19.68 35.58 39.02 17.84 36.29 37.53 15.24 30.05 
bertShare 38.13 19.81 35.62 39.09 18.10 36.33 38.52 16.12 31.13 
robertaShare 38.21 19.70 35.44 40.10 18.95 37.39 39.87 17.50 32.37 
gpt 36.04 18.44 33.67 37.26 15.83 34.47 22.21 4.89 16.69 
rnd2gpt 36.21 18.39 33.83 32.08 8.81 29.03 28.48 8.77 22.30 
bert2gpt 36.77 18.23 34.24 25.20 4.96 22.99 27.79 8.37 21.91 
roberta2gpt 37.94 19.21 35.42 36.35 14.72 33.79 19.91 5.20 15.88 
 
Initialized with the large checkpoint (24 layers) 
bertShare 38.35 19.80 35.66 39.83 17.69 37.01 38.93 16.35 31.52 
robertaShare 38.62 19.78 35.94 40.31 18.91 37.62 41.45 18.79 33.90 
Close Modal

or Create an Account

Close Modal
Close Modal