BERT 之无监督训练

34
0
0
2023-05-27

BERT 之无监督训练

和 GPT 一样,BERT 也采用二段式训练方法:

  1. 第一阶段:使用易获取的大规模无标签余料,来训练基础语言模型;

  2. 第二阶段:根据指定任务的少量带标签训练数据进行微调训练。

不同于 GPT 等标准语言模型使用 P(wi|w1,⋯,wi−1)P(wi|w1,⋯,wi−1) 为目标函数进行训练,能看到全局信息的 BERT 使用 P(wi|w1,⋯,wi−1,wi+1,⋯,wn)P(wi|w1,⋯,wi−1,wi+1,⋯,wn) 为目标函数进行训练。

并且 BERT 用语言掩码模型(MLM)方法训练词的语义理解能力;用下句预测(NSP)方法训练句子之间的理解能力,从而更好地支持下游任务。