Skip to Main Content
Table 4: 

Model scores from automatic evaluation metrics available in the evaluation toolkit. The five highest scores for each metric (and lowest for Length and Repeated-1/2/3) are bolded.

MethodROUGE-1/2/3/4/L/su*/wROUGE-WE-(1/2/3)S3 (pyr/resp)BertScoreMoverScoreSummaQASMSBLANCSUPERT
Extractive Models 
M0 - LEAD-3 0.3994 / 0.1746 / 0.0990 / 0.0647 / 0.3606 / 0.1377 / 0.2072 0.4049 / 0.2260 / 0.2172 0.5395 / 0.6328 0.3742 0.1679 0.1652 0.1050 0.0480 0.7259 
M1 - NEUSUM 0.4130 / 0.1893 / 0.1109 / 0.0742 / 0.3768 / 0.1495 / 0.2156 0.4186 / 0.2402 / 0.2310 0.5562 / 0.6509 0.3955 0.1839 0.1700 0.1062 0.1087 0.7010 
M2 - BanditSum 0.4137 / 0.1868 / 0.1086 / 0.0721 / 0.3759 / 0.1513 / 0.2139 0.4195 / 0.2385 / 0.2300 0.5339 / 0.6306 0.3938 0.1815 0.1324 0.1058 0.0909 0.7018 
M3 - LATENT 0.4136 / 0.1867 / 0.1085 / 0.0721 / 0.3757 / 0.1512 / 0.2138 0.4194 / 0.2384 / 0.2299 0.5337 / 0.6305 0.3936 0.1814 0.1645 0.1058 0.0910 0.7020 
M4 - REFRESH 0.3972 / 0.1807 / 0.1042 / 0.0690 / 0.3621 / 0.1340 / 0.2129 0.4023 / 0.2318 / 0.2238 0.6395 / 0.7124 0.3903 0.1720 0.1944 0.1088 0.1406 0.7526 
M5 - RNES 0.4088 / 0.1878 / 0.1102 / 0.0736 / 0.3719 / 0.1446/ 0.2163 0.4153 / 0.2395 / 0.2317 0.6082 / 0.6894 0.3997 0.1802 0.1794 0.1107 0.1232 0.7434 
M6 - JECS 0.4144 / 0.1846 / 0.1063 / 0.0699 / 0.3760 / 0.1485 / 0.2135 0.4200 / 0.2371 / 0.2283 0.5337 / 0.6284 0.3925 0.1805 0.1644 0.1048 0.1044 0.6946 
M7 - STRASS 0.3377 / 0.1237 / 0.0650 / 0.0416 / 0.2790 / 0.1052 / 0.1559 0.3477 / 0.1757 / 0.1656 0.3632 / 0.4939 0.3090 0.1079 0.1367 0.1023 0.1042 0.6566 
Abstractive Models 
M8 - Pointer Generator 0.3921 / 0.1723 / 0.1003 / 0.0674 / 0.3599 / 0.1435 / 0.1999 0.3990 / 0.2226 / 0.2128 0.4328 / 0.5561 0.3763 0.1643 0.1398 0.0974 0.0704 0.6501 
M9 - Fast-abs-rl 0.4057 / 0.1774 / 0.0975 / 0.0616 / 0.3806 / 0.1439 / 0.2112 0.4123 / 0.2302 / 0.2184 0.4818 / 0.5865 0.3918 0.1748 0.1431 0.0847 0.0855 0.6125 
M10 - Bottom-Up 0.4124 / 0.1870 / 0.1064 / 0.0695 / 0.3815 / 0.1543 / 0.2084 0.4192 / 0.2400 / 0.2313 0.4450 / 0.5655 0.3964 0.1830 0.1408 0.0925 0.0570 0.6092 
M11 - Improve-abs 0.3985 / 0.1720 / 0.0927 / 0.0567 / 0.3730 / 0.1431 / 0.2073 0.4045 / 0.2300 / 0.2228 0.4899 / 0.5897 0.3826 0.1652 0.1341 0.0816 0.0777 0.5972 
M12 - Unified-ext-abs 0.4038 / 0.1790 / 0.1039 / 0.0695 / 0.3675 / 0.1484 / 0.2074 0.4097 / 0.2299 / 0.2204 0.4936 / 0.5995 0.3832 0.1739 0.1530 0.1038 0.0962 0.6826 
M13 - ROUGESal 0.4016 / 0.1797 / 0.1053 / 0.0709 / 0.3679 / 0.1497 / 0.2058 0.4078 / 0.2294 / 0.2190 0.4643 / 0.5799 0.3837 0.1722 0.1475 0.1009 0.0882 0.6570 
M14 - Multi-task (Ent + QG) 0.3952 / 0.1758 / 0.1037 / 0.0705 / 0.3625 / 0.1476 / 0.2007 0.4015 / 0.2253 / 0.2149 0.4246 / 0.5513 0.3759 0.1670 0.1360 0.0982 0.0648 0.6380 
M15 - Closed book decoder 0.3976 / 0.1760 / 0.1031 / 0.0696 / 0.3636 / 0.1472 / 0.2033 0.4039 / 0.2263 / 0.2160 0.4591 / 0.5757 0.3783 0.1699 0.1456 0.1009 0.0896 0.6612 
M16 - SENECA 0.4151 / 0.1836 / 0.1052 / 0.0681 / 0.3806 / 0.1520 / 0.2112 0.4211 / 0.2369 / 0.2282 0.4735 / 0.5836 0.3907 0.1811 0.1404 0.1005 0.0692 0.6519 
M17 - T5 0.4479 / 0.2205 / 0.1336 / 0.0920 / 0.4172 / 0.1879 / 0.2291 0.4543 / 0.2723 / 0.2631 0.5168 / 0.6294 0.4450 0.2376 0.1437 0.1046 0.0773 0.6094 
M18 - NeuralTD 0.4004 / 0.1762 / 0.1000 / 0.0650 / 0.3723 / 0.1452 / 0.2085 0.4063 / 0.2277 / 0.2187 0.4946 / 0.5975 0.3949 0.1697 0.1440 0.0916 0.0859 0.6290 
M19 - BertSum-abs 0.4163 / 0.1944 / 0.1156 / 0.0785 / 0.3554 / 0.1625 / 0.1979 0.4230 / 0.2454 / 0.2351 0.4664 / 0.5855 0.3855 0.1894 0.1385 0.1071 0.0815 0.6116 
M20 - GPT-2 (supervised) 0.3981 / 0.1758 / 0.0993 / 0.0649 / 0.3674 / 0.1470 / 0.2006 0.4048 / 0.2268 / 0.2170 0.4069 / 0.5373 0.3915 0.1750 0.1299 0.0930 0.0705 0.6053 
M21 - UniLM 0.4306 / 0.2044 / 0.1218 / 0.0824 / 0.4013 / 0.1714 / 0.2228 0.4369 / 0.2567 / 0.2483 0.5143 / 0.6210 0.4122 0.2112 0.1455 0.0957 0.0841 0.6100 
M22 - BART 0.4416 / 0.2128 / 0.1285 / 0.0880 / 0.4100 / 0.1818 / 0.2266 0.4472 / 0.2646 / 0.2556 0.5116 / 0.6215 0.4264 0.2259 0.1457 0.1037 0.0822 0.6184 
M23 - Pegasus (dynamic mix) 0.4407 / 0.2155 / 0.1307 / 0.0901 / 0.4101 / 0.1825 / 0.2260 0.4471 / 0.2668 / 0.2575 0.5099 / 0.6233 0.4369 0.2283 0.1422 0.1040 0.0797 0.6046 
M23 - Pegasus (huge news) 0.4408 / 0.2147 / 0.1295 / 0.0889 / 0.4103 / 0.1821 / 0.2273 0.4473 / 0.2663 / 0.2568 0.5295 / 0.6372 0.4377 0.2286 0.1497 0.1049 0.0845 0.6148 
(a) Model scores from summarization-specific evaluation metrics. 
MethodROUGE-1/2/3/4/L/su*/wROUGE-WE-(1/2/3)S3 (pyr/resp)BertScoreMoverScoreSummaQASMSBLANCSUPERT
Extractive Models 
M0 - LEAD-3 0.3994 / 0.1746 / 0.0990 / 0.0647 / 0.3606 / 0.1377 / 0.2072 0.4049 / 0.2260 / 0.2172 0.5395 / 0.6328 0.3742 0.1679 0.1652 0.1050 0.0480 0.7259 
M1 - NEUSUM 0.4130 / 0.1893 / 0.1109 / 0.0742 / 0.3768 / 0.1495 / 0.2156 0.4186 / 0.2402 / 0.2310 0.5562 / 0.6509 0.3955 0.1839 0.1700 0.1062 0.1087 0.7010 
M2 - BanditSum 0.4137 / 0.1868 / 0.1086 / 0.0721 / 0.3759 / 0.1513 / 0.2139 0.4195 / 0.2385 / 0.2300 0.5339 / 0.6306 0.3938 0.1815 0.1324 0.1058 0.0909 0.7018 
M3 - LATENT 0.4136 / 0.1867 / 0.1085 / 0.0721 / 0.3757 / 0.1512 / 0.2138 0.4194 / 0.2384 / 0.2299 0.5337 / 0.6305 0.3936 0.1814 0.1645 0.1058 0.0910 0.7020 
M4 - REFRESH 0.3972 / 0.1807 / 0.1042 / 0.0690 / 0.3621 / 0.1340 / 0.2129 0.4023 / 0.2318 / 0.2238 0.6395 / 0.7124 0.3903 0.1720 0.1944 0.1088 0.1406 0.7526 
M5 - RNES 0.4088 / 0.1878 / 0.1102 / 0.0736 / 0.3719 / 0.1446/ 0.2163 0.4153 / 0.2395 / 0.2317 0.6082 / 0.6894 0.3997 0.1802 0.1794 0.1107 0.1232 0.7434 
M6 - JECS 0.4144 / 0.1846 / 0.1063 / 0.0699 / 0.3760 / 0.1485 / 0.2135 0.4200 / 0.2371 / 0.2283 0.5337 / 0.6284 0.3925 0.1805 0.1644 0.1048 0.1044 0.6946 
M7 - STRASS 0.3377 / 0.1237 / 0.0650 / 0.0416 / 0.2790 / 0.1052 / 0.1559 0.3477 / 0.1757 / 0.1656 0.3632 / 0.4939 0.3090 0.1079 0.1367 0.1023 0.1042 0.6566 
Abstractive Models 
M8 - Pointer Generator 0.3921 / 0.1723 / 0.1003 / 0.0674 / 0.3599 / 0.1435 / 0.1999 0.3990 / 0.2226 / 0.2128 0.4328 / 0.5561 0.3763 0.1643 0.1398 0.0974 0.0704 0.6501 
M9 - Fast-abs-rl 0.4057 / 0.1774 / 0.0975 / 0.0616 / 0.3806 / 0.1439 / 0.2112 0.4123 / 0.2302 / 0.2184 0.4818 / 0.5865 0.3918 0.1748 0.1431 0.0847 0.0855 0.6125 
M10 - Bottom-Up 0.4124 / 0.1870 / 0.1064 / 0.0695 / 0.3815 / 0.1543 / 0.2084 0.4192 / 0.2400 / 0.2313 0.4450 / 0.5655 0.3964 0.1830 0.1408 0.0925 0.0570 0.6092 
M11 - Improve-abs 0.3985 / 0.1720 / 0.0927 / 0.0567 / 0.3730 / 0.1431 / 0.2073 0.4045 / 0.2300 / 0.2228 0.4899 / 0.5897 0.3826 0.1652 0.1341 0.0816 0.0777 0.5972 
M12 - Unified-ext-abs 0.4038 / 0.1790 / 0.1039 / 0.0695 / 0.3675 / 0.1484 / 0.2074 0.4097 / 0.2299 / 0.2204 0.4936 / 0.5995 0.3832 0.1739 0.1530 0.1038 0.0962 0.6826 
M13 - ROUGESal 0.4016 / 0.1797 / 0.1053 / 0.0709 / 0.3679 / 0.1497 / 0.2058 0.4078 / 0.2294 / 0.2190 0.4643 / 0.5799 0.3837 0.1722 0.1475 0.1009 0.0882 0.6570 
M14 - Multi-task (Ent + QG) 0.3952 / 0.1758 / 0.1037 / 0.0705 / 0.3625 / 0.1476 / 0.2007 0.4015 / 0.2253 / 0.2149 0.4246 / 0.5513 0.3759 0.1670 0.1360 0.0982 0.0648 0.6380 
M15 - Closed book decoder 0.3976 / 0.1760 / 0.1031 / 0.0696 / 0.3636 / 0.1472 / 0.2033 0.4039 / 0.2263 / 0.2160 0.4591 / 0.5757 0.3783 0.1699 0.1456 0.1009 0.0896 0.6612 
M16 - SENECA 0.4151 / 0.1836 / 0.1052 / 0.0681 / 0.3806 / 0.1520 / 0.2112 0.4211 / 0.2369 / 0.2282 0.4735 / 0.5836 0.3907 0.1811 0.1404 0.1005 0.0692 0.6519 
M17 - T5 0.4479 / 0.2205 / 0.1336 / 0.0920 / 0.4172 / 0.1879 / 0.2291 0.4543 / 0.2723 / 0.2631 0.5168 / 0.6294 0.4450 0.2376 0.1437 0.1046 0.0773 0.6094 
M18 - NeuralTD 0.4004 / 0.1762 / 0.1000 / 0.0650 / 0.3723 / 0.1452 / 0.2085 0.4063 / 0.2277 / 0.2187 0.4946 / 0.5975 0.3949 0.1697 0.1440 0.0916 0.0859 0.6290 
M19 - BertSum-abs 0.4163 / 0.1944 / 0.1156 / 0.0785 / 0.3554 / 0.1625 / 0.1979 0.4230 / 0.2454 / 0.2351 0.4664 / 0.5855 0.3855 0.1894 0.1385 0.1071 0.0815 0.6116 
M20 - GPT-2 (supervised) 0.3981 / 0.1758 / 0.0993 / 0.0649 / 0.3674 / 0.1470 / 0.2006 0.4048 / 0.2268 / 0.2170 0.4069 / 0.5373 0.3915 0.1750 0.1299 0.0930 0.0705 0.6053 
M21 - UniLM 0.4306 / 0.2044 / 0.1218 / 0.0824 / 0.4013 / 0.1714 / 0.2228 0.4369 / 0.2567 / 0.2483 0.5143 / 0.6210 0.4122 0.2112 0.1455 0.0957 0.0841 0.6100 
M22 - BART 0.4416 / 0.2128 / 0.1285 / 0.0880 / 0.4100 / 0.1818 / 0.2266 0.4472 / 0.2646 / 0.2556 0.5116 / 0.6215 0.4264 0.2259 0.1457 0.1037 0.0822 0.6184 
M23 - Pegasus (dynamic mix) 0.4407 / 0.2155 / 0.1307 / 0.0901 / 0.4101 / 0.1825 / 0.2260 0.4471 / 0.2668 / 0.2575 0.5099 / 0.6233 0.4369 0.2283 0.1422 0.1040 0.0797 0.6046 
M23 - Pegasus (huge news) 0.4408 / 0.2147 / 0.1295 / 0.0889 / 0.4103 / 0.1821 / 0.2273 0.4473 / 0.2663 / 0.2568 0.5295 / 0.6372 0.4377 0.2286 0.1497 0.1049 0.0845 0.6148 
(a) Model scores from summarization-specific evaluation metrics. 
Close Modal

or Create an Account

Close Modal
Close Modal