Dataset . | #models . | Best BLEU . | bpe . | #layers . | #embed . | #hidden . | #att_heads . | init_lr . |
---|---|---|---|---|---|---|---|---|
zh-en | 118 | 14.66 | 30k | 4 | 512 | 1024 | 16 | 3e-4 |
ru-en | 176 | 20.23 | 10k | 4 | 256 | 2048 | 8 | 3e-4 |
ja-en | 150 | 16.41 | 30k | 4 | 512 | 2048 | 8 | 3e-4 |
en-ja | 168 | 20.74 | 10k | 4 | 1024 | 2048 | 8 | 3e-4 |
sw-en | 767 | 26.09 | 1k | 2 | 256 | 1024 | 8 | 6e-4 |
so-en | 604 | 11.23 | 8k | 2 | 512 | 1024 | 8 | 3e-4 |
Dataset . | #models . | Best BLEU . | bpe . | #layers . | #embed . | #hidden . | #att_heads . | init_lr . |
---|---|---|---|---|---|---|---|---|
zh-en | 118 | 14.66 | 30k | 4 | 512 | 1024 | 16 | 3e-4 |
ru-en | 176 | 20.23 | 10k | 4 | 256 | 2048 | 8 | 3e-4 |
ja-en | 150 | 16.41 | 30k | 4 | 512 | 2048 | 8 | 3e-4 |
en-ja | 168 | 20.74 | 10k | 4 | 1024 | 2048 | 8 | 3e-4 |
sw-en | 767 | 26.09 | 1k | 2 | 256 | 1024 | 8 | 6e-4 |
so-en | 604 | 11.23 | 8k | 2 | 512 | 1024 | 8 | 3e-4 |