Skip to Main Content
Table 3: 

Hyperparameter settings for BERT on GLUE datasets, where the SSL task is MTP.

TaskEpochLearning RateRegularization Parameter
CoLA 10 3e-5 0.2 
SST-2 3e-5 0.05 
MRPC 4e-5 0.05 
STS-B 10 4e-5 0.1 
QQP 3e-5 0.2 
MNLI 3e-5 0.1 
QNLI 4e-5 0.5 
RTE 10 3e-5 0.1 
WNLI 5e-5 
TaskEpochLearning RateRegularization Parameter
CoLA 10 3e-5 0.2 
SST-2 3e-5 0.05 
MRPC 4e-5 0.05 
STS-B 10 4e-5 0.1 
QQP 3e-5 0.2 
MNLI 3e-5 0.1 
QNLI 4e-5 0.5 
RTE 10 3e-5 0.1 
WNLI 5e-5 
Close Modal

or Create an Account

Close Modal
Close Modal