Skip to Main Content
Table 2: 
Age-Compare results. Accuracy over two answer candidates (random is 50%). LangSense are the Language Sensitivity controls, pert is Perturbed Lang. and nolang is No Lang. The baseline row is MLM-Baseline.
ModelZeroMLPMLMLinearLangSense
 shot WS Max WS Max pert nolang 
RoBERTa-L 98 98 100 97 100 31 51 
BERT-WWM 70 82 100 69 85 13 15 
BERT-L 50 52 57 50 51 
 
RoBERTa-B 68 75 91 69 84 24 25 
BERT-B 49 49 50 50 50 
 
Baseline 49 58 79 
ModelZeroMLPMLMLinearLangSense
 shot WS Max WS Max pert nolang 
RoBERTa-L 98 98 100 97 100 31 51 
BERT-WWM 70 82 100 69 85 13 15 
BERT-L 50 52 57 50 51 
 
RoBERTa-B 68 75 91 69 84 24 25 
BERT-B 49 49 50 50 50 
 
Baseline 49 58 79 
Close Modal

or Create an Account

Close Modal
Close Modal