Model scores from automatic evaluation metrics available in the evaluation toolkit. The five highest scores for each metric (and lowest for Length and Repeated-1/2/3) are bolded.
Method . | ROUGE-1/2/3/4/L/su*/w . | ROUGE-WE-(1/2/3) . | S3 (pyr/resp) . | BertScore . | MoverScore . | SummaQA . | SMS . | BLANC . | SUPERT . |
---|---|---|---|---|---|---|---|---|---|
Extractive Models | |||||||||
M0 - LEAD-3 | 0.3994 / 0.1746 / 0.0990 / 0.0647 / 0.3606 / 0.1377 / 0.2072 | 0.4049 / 0.2260 / 0.2172 | 0.5395 / 0.6328 | 0.3742 | 0.1679 | 0.1652 | 0.1050 | 0.0480 | 0.7259 |
M1 - NEUSUM | 0.4130 / 0.1893 / 0.1109 / 0.0742 / 0.3768 / 0.1495 / 0.2156 | 0.4186 / 0.2402 / 0.2310 | 0.5562 / 0.6509 | 0.3955 | 0.1839 | 0.1700 | 0.1062 | 0.1087 | 0.7010 |
M2 - BanditSum | 0.4137 / 0.1868 / 0.1086 / 0.0721 / 0.3759 / 0.1513 / 0.2139 | 0.4195 / 0.2385 / 0.2300 | 0.5339 / 0.6306 | 0.3938 | 0.1815 | 0.1324 | 0.1058 | 0.0909 | 0.7018 |
M3 - LATENT | 0.4136 / 0.1867 / 0.1085 / 0.0721 / 0.3757 / 0.1512 / 0.2138 | 0.4194 / 0.2384 / 0.2299 | 0.5337 / 0.6305 | 0.3936 | 0.1814 | 0.1645 | 0.1058 | 0.0910 | 0.7020 |
M4 - REFRESH | 0.3972 / 0.1807 / 0.1042 / 0.0690 / 0.3621 / 0.1340 / 0.2129 | 0.4023 / 0.2318 / 0.2238 | 0.6395 / 0.7124 | 0.3903 | 0.1720 | 0.1944 | 0.1088 | 0.1406 | 0.7526 |
M5 - RNES | 0.4088 / 0.1878 / 0.1102 / 0.0736 / 0.3719 / 0.1446/ 0.2163 | 0.4153 / 0.2395 / 0.2317 | 0.6082 / 0.6894 | 0.3997 | 0.1802 | 0.1794 | 0.1107 | 0.1232 | 0.7434 |
M6 - JECS | 0.4144 / 0.1846 / 0.1063 / 0.0699 / 0.3760 / 0.1485 / 0.2135 | 0.4200 / 0.2371 / 0.2283 | 0.5337 / 0.6284 | 0.3925 | 0.1805 | 0.1644 | 0.1048 | 0.1044 | 0.6946 |
M7 - STRASS | 0.3377 / 0.1237 / 0.0650 / 0.0416 / 0.2790 / 0.1052 / 0.1559 | 0.3477 / 0.1757 / 0.1656 | 0.3632 / 0.4939 | 0.3090 | 0.1079 | 0.1367 | 0.1023 | 0.1042 | 0.6566 |
Abstractive Models | |||||||||
M8 - Pointer Generator | 0.3921 / 0.1723 / 0.1003 / 0.0674 / 0.3599 / 0.1435 / 0.1999 | 0.3990 / 0.2226 / 0.2128 | 0.4328 / 0.5561 | 0.3763 | 0.1643 | 0.1398 | 0.0974 | 0.0704 | 0.6501 |
M9 - Fast-abs-rl | 0.4057 / 0.1774 / 0.0975 / 0.0616 / 0.3806 / 0.1439 / 0.2112 | 0.4123 / 0.2302 / 0.2184 | 0.4818 / 0.5865 | 0.3918 | 0.1748 | 0.1431 | 0.0847 | 0.0855 | 0.6125 |
M10 - Bottom-Up | 0.4124 / 0.1870 / 0.1064 / 0.0695 / 0.3815 / 0.1543 / 0.2084 | 0.4192 / 0.2400 / 0.2313 | 0.4450 / 0.5655 | 0.3964 | 0.1830 | 0.1408 | 0.0925 | 0.0570 | 0.6092 |
M11 - Improve-abs | 0.3985 / 0.1720 / 0.0927 / 0.0567 / 0.3730 / 0.1431 / 0.2073 | 0.4045 / 0.2300 / 0.2228 | 0.4899 / 0.5897 | 0.3826 | 0.1652 | 0.1341 | 0.0816 | 0.0777 | 0.5972 |
M12 - Unified-ext-abs | 0.4038 / 0.1790 / 0.1039 / 0.0695 / 0.3675 / 0.1484 / 0.2074 | 0.4097 / 0.2299 / 0.2204 | 0.4936 / 0.5995 | 0.3832 | 0.1739 | 0.1530 | 0.1038 | 0.0962 | 0.6826 |
M13 - ROUGESal | 0.4016 / 0.1797 / 0.1053 / 0.0709 / 0.3679 / 0.1497 / 0.2058 | 0.4078 / 0.2294 / 0.2190 | 0.4643 / 0.5799 | 0.3837 | 0.1722 | 0.1475 | 0.1009 | 0.0882 | 0.6570 |
M14 - Multi-task (Ent + QG) | 0.3952 / 0.1758 / 0.1037 / 0.0705 / 0.3625 / 0.1476 / 0.2007 | 0.4015 / 0.2253 / 0.2149 | 0.4246 / 0.5513 | 0.3759 | 0.1670 | 0.1360 | 0.0982 | 0.0648 | 0.6380 |
M15 - Closed book decoder | 0.3976 / 0.1760 / 0.1031 / 0.0696 / 0.3636 / 0.1472 / 0.2033 | 0.4039 / 0.2263 / 0.2160 | 0.4591 / 0.5757 | 0.3783 | 0.1699 | 0.1456 | 0.1009 | 0.0896 | 0.6612 |
M16 - SENECA | 0.4151 / 0.1836 / 0.1052 / 0.0681 / 0.3806 / 0.1520 / 0.2112 | 0.4211 / 0.2369 / 0.2282 | 0.4735 / 0.5836 | 0.3907 | 0.1811 | 0.1404 | 0.1005 | 0.0692 | 0.6519 |
M17 - T5 | 0.4479 / 0.2205 / 0.1336 / 0.0920 / 0.4172 / 0.1879 / 0.2291 | 0.4543 / 0.2723 / 0.2631 | 0.5168 / 0.6294 | 0.4450 | 0.2376 | 0.1437 | 0.1046 | 0.0773 | 0.6094 |
M18 - NeuralTD | 0.4004 / 0.1762 / 0.1000 / 0.0650 / 0.3723 / 0.1452 / 0.2085 | 0.4063 / 0.2277 / 0.2187 | 0.4946 / 0.5975 | 0.3949 | 0.1697 | 0.1440 | 0.0916 | 0.0859 | 0.6290 |
M19 - BertSum-abs | 0.4163 / 0.1944 / 0.1156 / 0.0785 / 0.3554 / 0.1625 / 0.1979 | 0.4230 / 0.2454 / 0.2351 | 0.4664 / 0.5855 | 0.3855 | 0.1894 | 0.1385 | 0.1071 | 0.0815 | 0.6116 |
M20 - GPT-2 (supervised) | 0.3981 / 0.1758 / 0.0993 / 0.0649 / 0.3674 / 0.1470 / 0.2006 | 0.4048 / 0.2268 / 0.2170 | 0.4069 / 0.5373 | 0.3915 | 0.1750 | 0.1299 | 0.0930 | 0.0705 | 0.6053 |
M21 - UniLM | 0.4306 / 0.2044 / 0.1218 / 0.0824 / 0.4013 / 0.1714 / 0.2228 | 0.4369 / 0.2567 / 0.2483 | 0.5143 / 0.6210 | 0.4122 | 0.2112 | 0.1455 | 0.0957 | 0.0841 | 0.6100 |
M22 - BART | 0.4416 / 0.2128 / 0.1285 / 0.0880 / 0.4100 / 0.1818 / 0.2266 | 0.4472 / 0.2646 / 0.2556 | 0.5116 / 0.6215 | 0.4264 | 0.2259 | 0.1457 | 0.1037 | 0.0822 | 0.6184 |
M23 - Pegasus (dynamic mix) | 0.4407 / 0.2155 / 0.1307 / 0.0901 / 0.4101 / 0.1825 / 0.2260 | 0.4471 / 0.2668 / 0.2575 | 0.5099 / 0.6233 | 0.4369 | 0.2283 | 0.1422 | 0.1040 | 0.0797 | 0.6046 |
M23 - Pegasus (huge news) | 0.4408 / 0.2147 / 0.1295 / 0.0889 / 0.4103 / 0.1821 / 0.2273 | 0.4473 / 0.2663 / 0.2568 | 0.5295 / 0.6372 | 0.4377 | 0.2286 | 0.1497 | 0.1049 | 0.0845 | 0.6148 |
(a) Model scores from summarization-specific evaluation metrics. |
Method . | ROUGE-1/2/3/4/L/su*/w . | ROUGE-WE-(1/2/3) . | S3 (pyr/resp) . | BertScore . | MoverScore . | SummaQA . | SMS . | BLANC . | SUPERT . |
---|---|---|---|---|---|---|---|---|---|
Extractive Models | |||||||||
M0 - LEAD-3 | 0.3994 / 0.1746 / 0.0990 / 0.0647 / 0.3606 / 0.1377 / 0.2072 | 0.4049 / 0.2260 / 0.2172 | 0.5395 / 0.6328 | 0.3742 | 0.1679 | 0.1652 | 0.1050 | 0.0480 | 0.7259 |
M1 - NEUSUM | 0.4130 / 0.1893 / 0.1109 / 0.0742 / 0.3768 / 0.1495 / 0.2156 | 0.4186 / 0.2402 / 0.2310 | 0.5562 / 0.6509 | 0.3955 | 0.1839 | 0.1700 | 0.1062 | 0.1087 | 0.7010 |
M2 - BanditSum | 0.4137 / 0.1868 / 0.1086 / 0.0721 / 0.3759 / 0.1513 / 0.2139 | 0.4195 / 0.2385 / 0.2300 | 0.5339 / 0.6306 | 0.3938 | 0.1815 | 0.1324 | 0.1058 | 0.0909 | 0.7018 |
M3 - LATENT | 0.4136 / 0.1867 / 0.1085 / 0.0721 / 0.3757 / 0.1512 / 0.2138 | 0.4194 / 0.2384 / 0.2299 | 0.5337 / 0.6305 | 0.3936 | 0.1814 | 0.1645 | 0.1058 | 0.0910 | 0.7020 |
M4 - REFRESH | 0.3972 / 0.1807 / 0.1042 / 0.0690 / 0.3621 / 0.1340 / 0.2129 | 0.4023 / 0.2318 / 0.2238 | 0.6395 / 0.7124 | 0.3903 | 0.1720 | 0.1944 | 0.1088 | 0.1406 | 0.7526 |
M5 - RNES | 0.4088 / 0.1878 / 0.1102 / 0.0736 / 0.3719 / 0.1446/ 0.2163 | 0.4153 / 0.2395 / 0.2317 | 0.6082 / 0.6894 | 0.3997 | 0.1802 | 0.1794 | 0.1107 | 0.1232 | 0.7434 |
M6 - JECS | 0.4144 / 0.1846 / 0.1063 / 0.0699 / 0.3760 / 0.1485 / 0.2135 | 0.4200 / 0.2371 / 0.2283 | 0.5337 / 0.6284 | 0.3925 | 0.1805 | 0.1644 | 0.1048 | 0.1044 | 0.6946 |
M7 - STRASS | 0.3377 / 0.1237 / 0.0650 / 0.0416 / 0.2790 / 0.1052 / 0.1559 | 0.3477 / 0.1757 / 0.1656 | 0.3632 / 0.4939 | 0.3090 | 0.1079 | 0.1367 | 0.1023 | 0.1042 | 0.6566 |
Abstractive Models | |||||||||
M8 - Pointer Generator | 0.3921 / 0.1723 / 0.1003 / 0.0674 / 0.3599 / 0.1435 / 0.1999 | 0.3990 / 0.2226 / 0.2128 | 0.4328 / 0.5561 | 0.3763 | 0.1643 | 0.1398 | 0.0974 | 0.0704 | 0.6501 |
M9 - Fast-abs-rl | 0.4057 / 0.1774 / 0.0975 / 0.0616 / 0.3806 / 0.1439 / 0.2112 | 0.4123 / 0.2302 / 0.2184 | 0.4818 / 0.5865 | 0.3918 | 0.1748 | 0.1431 | 0.0847 | 0.0855 | 0.6125 |
M10 - Bottom-Up | 0.4124 / 0.1870 / 0.1064 / 0.0695 / 0.3815 / 0.1543 / 0.2084 | 0.4192 / 0.2400 / 0.2313 | 0.4450 / 0.5655 | 0.3964 | 0.1830 | 0.1408 | 0.0925 | 0.0570 | 0.6092 |
M11 - Improve-abs | 0.3985 / 0.1720 / 0.0927 / 0.0567 / 0.3730 / 0.1431 / 0.2073 | 0.4045 / 0.2300 / 0.2228 | 0.4899 / 0.5897 | 0.3826 | 0.1652 | 0.1341 | 0.0816 | 0.0777 | 0.5972 |
M12 - Unified-ext-abs | 0.4038 / 0.1790 / 0.1039 / 0.0695 / 0.3675 / 0.1484 / 0.2074 | 0.4097 / 0.2299 / 0.2204 | 0.4936 / 0.5995 | 0.3832 | 0.1739 | 0.1530 | 0.1038 | 0.0962 | 0.6826 |
M13 - ROUGESal | 0.4016 / 0.1797 / 0.1053 / 0.0709 / 0.3679 / 0.1497 / 0.2058 | 0.4078 / 0.2294 / 0.2190 | 0.4643 / 0.5799 | 0.3837 | 0.1722 | 0.1475 | 0.1009 | 0.0882 | 0.6570 |
M14 - Multi-task (Ent + QG) | 0.3952 / 0.1758 / 0.1037 / 0.0705 / 0.3625 / 0.1476 / 0.2007 | 0.4015 / 0.2253 / 0.2149 | 0.4246 / 0.5513 | 0.3759 | 0.1670 | 0.1360 | 0.0982 | 0.0648 | 0.6380 |
M15 - Closed book decoder | 0.3976 / 0.1760 / 0.1031 / 0.0696 / 0.3636 / 0.1472 / 0.2033 | 0.4039 / 0.2263 / 0.2160 | 0.4591 / 0.5757 | 0.3783 | 0.1699 | 0.1456 | 0.1009 | 0.0896 | 0.6612 |
M16 - SENECA | 0.4151 / 0.1836 / 0.1052 / 0.0681 / 0.3806 / 0.1520 / 0.2112 | 0.4211 / 0.2369 / 0.2282 | 0.4735 / 0.5836 | 0.3907 | 0.1811 | 0.1404 | 0.1005 | 0.0692 | 0.6519 |
M17 - T5 | 0.4479 / 0.2205 / 0.1336 / 0.0920 / 0.4172 / 0.1879 / 0.2291 | 0.4543 / 0.2723 / 0.2631 | 0.5168 / 0.6294 | 0.4450 | 0.2376 | 0.1437 | 0.1046 | 0.0773 | 0.6094 |
M18 - NeuralTD | 0.4004 / 0.1762 / 0.1000 / 0.0650 / 0.3723 / 0.1452 / 0.2085 | 0.4063 / 0.2277 / 0.2187 | 0.4946 / 0.5975 | 0.3949 | 0.1697 | 0.1440 | 0.0916 | 0.0859 | 0.6290 |
M19 - BertSum-abs | 0.4163 / 0.1944 / 0.1156 / 0.0785 / 0.3554 / 0.1625 / 0.1979 | 0.4230 / 0.2454 / 0.2351 | 0.4664 / 0.5855 | 0.3855 | 0.1894 | 0.1385 | 0.1071 | 0.0815 | 0.6116 |
M20 - GPT-2 (supervised) | 0.3981 / 0.1758 / 0.0993 / 0.0649 / 0.3674 / 0.1470 / 0.2006 | 0.4048 / 0.2268 / 0.2170 | 0.4069 / 0.5373 | 0.3915 | 0.1750 | 0.1299 | 0.0930 | 0.0705 | 0.6053 |
M21 - UniLM | 0.4306 / 0.2044 / 0.1218 / 0.0824 / 0.4013 / 0.1714 / 0.2228 | 0.4369 / 0.2567 / 0.2483 | 0.5143 / 0.6210 | 0.4122 | 0.2112 | 0.1455 | 0.0957 | 0.0841 | 0.6100 |
M22 - BART | 0.4416 / 0.2128 / 0.1285 / 0.0880 / 0.4100 / 0.1818 / 0.2266 | 0.4472 / 0.2646 / 0.2556 | 0.5116 / 0.6215 | 0.4264 | 0.2259 | 0.1457 | 0.1037 | 0.0822 | 0.6184 |
M23 - Pegasus (dynamic mix) | 0.4407 / 0.2155 / 0.1307 / 0.0901 / 0.4101 / 0.1825 / 0.2260 | 0.4471 / 0.2668 / 0.2575 | 0.5099 / 0.6233 | 0.4369 | 0.2283 | 0.1422 | 0.1040 | 0.0797 | 0.6046 |
M23 - Pegasus (huge news) | 0.4408 / 0.2147 / 0.1295 / 0.0889 / 0.4103 / 0.1821 / 0.2273 | 0.4473 / 0.2663 / 0.2568 | 0.5295 / 0.6372 | 0.4377 | 0.2286 | 0.1497 | 0.1049 | 0.0845 | 0.6148 |
(a) Model scores from summarization-specific evaluation metrics. |