Skip to Main Content
Table 4: 
Statistics on the computation efficiency of different models. For Cont, we report the actual training time in seconds. For other models, we report the relative training time compared to Cont. Params: Number of trainable parameters of the whole model in millions. Batch: Maximal batch size per card.
VocabParamsBatchS1 (small batch)S2 (large batch)S3 (multiple GPUs)
Cont ∞ 76M 640 0.47s 115.28s 34.58s 
 
Fixed ∞ 76M 512 1.17x 1.24x 1.24x 
 
Subword ∞ 92M 320 1.09x 1.53x 1.55x 
 
Adaptive 40K 97M 384 1.08x 1.30x 1.34x 
800K 196M 256 1.16x 1.47x 1.89x 
2000K 213M 192 1.25x 1.82x 2.49x 
 
Sampled 40K 96M 512 1.07x 1.18x 1.30x 
800K 483M 256 1.15x 1.35x 1.91x 
2000K 1102M 64 1.16x 2.35x 16.09x 
VocabParamsBatchS1 (small batch)S2 (large batch)S3 (multiple GPUs)
Cont ∞ 76M 640 0.47s 115.28s 34.58s 
 
Fixed ∞ 76M 512 1.17x 1.24x 1.24x 
 
Subword ∞ 92M 320 1.09x 1.53x 1.55x 
 
Adaptive 40K 97M 384 1.08x 1.30x 1.34x 
800K 196M 256 1.16x 1.47x 1.89x 
2000K 213M 192 1.25x 1.82x 2.49x 
 
Sampled 40K 96M 512 1.07x 1.18x 1.30x 
800K 483M 256 1.15x 1.35x 1.91x 
2000K 1102M 64 1.16x 2.35x 16.09x 
Close Modal

or Create an Account

Close Modal
Close Modal