原创:晋百川

BERT模型自18年10月推出,到目前为止已经有3年多时间了。BERT问世即引起轰动,之后,各种改进版本的预训练模型(Pre-Training Model, PTM)与应用层出不穷。BERT及它的继任者们,确实也不负众望,在多种NLP数据集竞赛榜单,连续多年被各种新出现的预训练模型霸榜,有些榜单,个别模型已经把指标刷到超过人类。今天就带大家聊一下BERT并进行案例实战。
一、BERT介绍
BERT的架构图如图1所示,从架构图我们可以看到BERT分三个模块,分别是Embedding模块、Transformer模块和输出的预微调模块。

(1)Embedding模块:BERT中的该模块是由三种Embedding共同组成而成,如下图所示。

- Token Embeddings 是词嵌入张量,第一个单词是CLS标志,可以用于之后的分类任务。
- Segment Embeddings 是句子分段嵌入张量,是为了服务后续的两个句子为输入的预训练任务。
- Position Embeddings 是位置编码张量,此处注意和传统的Transformer不同,不是三角函数计算的固定位置编码,而是通过学习得出来的。
- 整个Embedding模块的输出张量就是这3个张量的直接加和结果。

本文介绍了BERT模型的架构和预训练任务,包括Masked LM和Next Sentence Prediction,还探讨了BERT的变体及其参数配置。通过理解BERT,读者可以更好地掌握预训练模型在NLP领域的应用。

1万+

被折叠的 条评论
为什么被折叠?



