Skip to Main Content
Table 3: 

A comparison of various pruning methods.

Unpruned HeadsMichel et al.Pipelined DSPVoita et al.STEJoint DSP
132 84.38 84.15 84.26 84.77 84.70 
120 84.60 84.41 84.18 84.59 84.97 
108 84.19 82.64 84.39 84.52 83.95 
96 84.24 83.27 84.42 84.68 84.41 
84 83.50 83.37 84.00 84.20 84.02 
72 82.47 82.95 83.93 84.08 83.48 
60 81.74 79.69 83.37 83.85 83.21 
48 79.26 79.10 83.24 82.81 83.22 
36 70.82 76.08 81.68 82.20 82.51 
24 47.54 70.72 81.02 81.44 81.54 
12 40.59 56.29 76.91 73.79 79.74 
11 40.16 50.81 76.30 78.91 79.02 
10 39.71 49.14 75.34 77.10 78.35 
40.88 51.20 76.12 76.99 77.51 
36.16 45.74 74.12 69.29 77.57 
36.13 43.11 74.14 69.64 76.32 
34.28 40.90 74.18 70.45 76.70 
33.24 41.95 73.89 66.53 76.17 
33.49 42.64 73.12 65.43 75.06 
32.68 41.79 62.84 65.15 73.36 
32.74 38.30 62.87 57.07 72.14 
34.28 43.28 62.09 61.79 61.79 
(a) Accuracy on the MNLI-mismatched validation set as a function of number of remaining heads in BERT/
 
Unpruned Heads Michel et al. Pipelined DSP Voita et al. STE Joint DSP 
68 32.87 34.19 34.10 34.69 34.52 
64 29.08 34.29 34.19 34.55 34.51 
60 11.18 32.21 34.14 34.56 34.83 
56 6.91 32.52 34.19 34.19 34.46 
52 4.41 33.02 34.23 33.92 34.79 
48 2.64 31.58 34.20 34.02 34.82 
44 2.30 28.70 34.08 33.88 34.68 
40 1.70 24.35 34.06 33.85 34.13 
36 1.20 25.84 33.82 33.22 34.58 
32 0.61 23.94 33.70 32.88 34.10 
28 0.19 16.63 33.78 32.01 33.89 
24 0.13 20.40 33.44 33.71 33.72 
20 0.07 14.11 33.25 31.27 33.54 
16 0.07 7.55 32.62 31.25 32.32 
12 0.05 3.80 32.33 30.71 32.74 
0.04 0.63 31.26 28.77 32.68 
0.04 0.16 29.09 25.45 30.33 
0.04 0.09 23.08 23.83 28.22 
0.04 0.05 20.89 22.35 24.18 
0.04 0.05 20.38 20.37 20.64 
(b) BLEU score on IWSLT test set as a function of number of unpruned heads in Enc–Dec
Unpruned HeadsMichel et al.Pipelined DSPVoita et al.STEJoint DSP
132 84.38 84.15 84.26 84.77 84.70 
120 84.60 84.41 84.18 84.59 84.97 
108 84.19 82.64 84.39 84.52 83.95 
96 84.24 83.27 84.42 84.68 84.41 
84 83.50 83.37 84.00 84.20 84.02 
72 82.47 82.95 83.93 84.08 83.48 
60 81.74 79.69 83.37 83.85 83.21 
48 79.26 79.10 83.24 82.81 83.22 
36 70.82 76.08 81.68 82.20 82.51 
24 47.54 70.72 81.02 81.44 81.54 
12 40.59 56.29 76.91 73.79 79.74 
11 40.16 50.81 76.30 78.91 79.02 
10 39.71 49.14 75.34 77.10 78.35 
40.88 51.20 76.12 76.99 77.51 
36.16 45.74 74.12 69.29 77.57 
36.13 43.11 74.14 69.64 76.32 
34.28 40.90 74.18 70.45 76.70 
33.24 41.95 73.89 66.53 76.17 
33.49 42.64 73.12 65.43 75.06 
32.68 41.79 62.84 65.15 73.36 
32.74 38.30 62.87 57.07 72.14 
34.28 43.28 62.09 61.79 61.79 
(a) Accuracy on the MNLI-mismatched validation set as a function of number of remaining heads in BERT/
 
Unpruned Heads Michel et al. Pipelined DSP Voita et al. STE Joint DSP 
68 32.87 34.19 34.10 34.69 34.52 
64 29.08 34.29 34.19 34.55 34.51 
60 11.18 32.21 34.14 34.56 34.83 
56 6.91 32.52 34.19 34.19 34.46 
52 4.41 33.02 34.23 33.92 34.79 
48 2.64 31.58 34.20 34.02 34.82 
44 2.30 28.70 34.08 33.88 34.68 
40 1.70 24.35 34.06 33.85 34.13 
36 1.20 25.84 33.82 33.22 34.58 
32 0.61 23.94 33.70 32.88 34.10 
28 0.19 16.63 33.78 32.01 33.89 
24 0.13 20.40 33.44 33.71 33.72 
20 0.07 14.11 33.25 31.27 33.54 
16 0.07 7.55 32.62 31.25 32.32 
12 0.05 3.80 32.33 30.71 32.74 
0.04 0.63 31.26 28.77 32.68 
0.04 0.16 29.09 25.45 30.33 
0.04 0.09 23.08 23.83 28.22 
0.04 0.05 20.89 22.35 24.18 
0.04 0.05 20.38 20.37 20.64 
(b) BLEU score on IWSLT test set as a function of number of unpruned heads in Enc–Dec
Close Modal

or Create an Account

Close Modal
Close Modal