BERT执行原理

BERT模型对文本进行wordpiece或字级别处理,将序列转换为token ID,结合类型ID和位置编码进行self-attention。当序列长度超过最大值时,进行截断或填充。模型包含embedding层和Transformer的encoder层,输出包括词向量、类型ID信息和位置信息。

BERT处理英文有wordpiece分词操作
BERT处理中文是把中文分成一个一个的字进行处理
总的来说bert会把文本划分成更加细粒度的文本来处理

在这里插入图片描述
两句话有三个特征字符
一句话有两个特征字符
CLS表示待分类特征
如果序列A和序列B加起来超过了最大长度,就采取截断操作

通过vocab.txt把token转换成对应的id

在这里插入图片描述
通过vocab.txt把token转换成对应的id,然后通过id去查找层找到对应的词向量(word embedding)

如果我们设置最大长度为128,那么在做序列对比较的时候,遵循多退少补的原则。如果两个序列加起来的长度没有128,那么要在最后补上0,使其长度达到128;如果两个序列加起来的长度超过了128,那么就要采取截断操作。

在最后补0的情况:0也代表了某个词的索引,在后期做self-attention的时候,这些0起不了什么作用

bert 的输入由三种向量组成,这三种向量的维度是相同的

视频里设置的batchsize是8,自己设置的batchsize是32,所以笔记比较混乱,有的用的8,有的用的32

input(32,128)output(32,128,768)
768代表每个词向量的维度

type_id 表示当前的token是属于第一句话还是属于第二句话(0,1)
对于type_id 二分类问题使用了one_hot编码

加入type_id 编码和位置编码以后,output(32,128,768)的形状没有改变,只是在其中融入了type_id 信息和位置

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值