关于BERT预训练模型,你想知道的都在这~

本文介绍了BERT模型的架构和预训练任务,包括Masked LM和Next Sentence Prediction,还探讨了BERT的变体及其参数配置。通过理解BERT,读者可以更好地掌握预训练模型在NLP领域的应用。

原创:晋百川

BERT模型自18年10月推出,到目前为止已经有3年多时间了。BERT问世即引起轰动,之后,各种改进版本的预训练模型(Pre-Training Model, PTM)与应用层出不穷。BERT及它的继任者们,确实也不负众望,在多种NLP数据集竞赛榜单,连续多年被各种新出现的预训练模型霸榜,有些榜单,个别模型已经把指标刷到超过人类。今天就带大家聊一下BERT并进行案例实战。

一、BERT介绍

BERT的架构图如图1所示,从架构图我们可以看到BERT分三个模块,分别是Embedding模块、Transformer模块和输出的预微调模块。

图1

(1)Embedding模块:BERT中的该模块是由三种Embedding共同组成而成,如下图所示。

图2


  • Token Embeddings 是词嵌入张量,第一个单词是CLS标志,可以用于之后的分类任务。
  • Segment Embeddings 是句子分段嵌入张量,是为了服务后续的两个句子为输入的预训练任务。
  • Position Embeddings 是位置编码张量,此处注意和传统的Transformer不同,不是三角函数计算的固定位置编码,而是通过学习得出来的。
  • 整个Embedding模块的输出张量就是这3个张量的直接加和结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值