BERT 之无监督训练
BERT 之无监督训练
和 GPT 一样,BERT 也采用二段式训练方法:
第一阶段:使用易获取的大规模无标签余料,来训练基础语言模型;
第二阶段:根据指定任务的少量带标签训练数据进行微调训练。
不同于 GPT 等标准语言模型使用 P(wi|w1,⋯,wi−1)P(wi|w1,⋯,wi−1) 为目标函数进行训练,能看到全局信息的 BERT 使用 P(wi|w1,⋯,wi−1,wi+1,⋯,wn)P(wi|w1,⋯,wi−1,wi+1,⋯,wn) 为目标函数进行训练。
并且 BERT 用语言掩码模型(MLM)方法训练词的语义理解能力;用下句预测(NSP)方法训练句子之间的理解能力,从而更好地支持下游任务。