BERT 之无监督训练

学习

41

0

0

2023-05-27

BERT 之无监督训练

和 GPT 一样，BERT 也采用二段式训练方法：

第一阶段：使用易获取的大规模无标签余料，来训练基础语言模型；
第二阶段：根据指定任务的少量带标签训练数据进行微调训练。

不同于 GPT 等标准语言模型使用 P(wi|w1,⋯,wi−1)P(wi|w1,⋯,wi−1) 为目标函数进行训练，能看到全局信息的 BERT 使用 P(wi|w1,⋯,wi−1,wi+1,⋯,wn)P(wi|w1,⋯,wi−1,wi+1,⋯,wn) 为目标函数进行训练。

并且 BERT 用语言掩码模型（MLM）方法训练词的语义理解能力；用下句预测（NSP）方法训练句子之间的理解能力，从而更好地支持下游任务。

#深度学习 ⁴⁰