BERT处理英文有wordpiece分词操作
BERT处理中文是把中文分成一个一个的字进行处理
总的来说bert会把文本划分成更加细粒度的文本来处理

两句话有三个特征字符
一句话有两个特征字符
CLS表示待分类特征
如果序列A和序列B加起来超过了最大长度,就采取截断操作
通过vocab.txt把token转换成对应的id

通过vocab.txt把token转换成对应的id,然后通过id去查找层找到对应的词向量(word embedding)
如果我们设置最大长度为128,那么在做序列对比较的时候,遵循多退少补的原则。如果两个序列加起来的长度没有128,那么要在最后补上0,使其长度达到128;如果两个序列加起来的长度超过了128,那么就要采取截断操作。
在最后补0的情况:0也代表了某个词的索引,在后期做self-attention的时候,这些0起不了什么作用
bert 的输入由三种向量组成,这三种向量的维度是相同的
视频里设置的batchsize是8,自己设置的batchsize是32,所以笔记比较混乱,有的用的8,有的用的32
input(32,128)output(32,128,768)
768代表每个词向量的维度
type_id 表示当前的token是属于第一句话还是属于第二句话(0,1)
对于type_id 二分类问题使用了one_hot编码
加入type_id 编码和位置编码以后,output(32,128,768)的形状没有改变,只是在其中融入了type_id 信息和位置

BERT模型对文本进行wordpiece或字级别处理,将序列转换为token ID,结合类型ID和位置编码进行self-attention。当序列长度超过最大值时,进行截断或填充。模型包含embedding层和Transformer的encoder层,输出包括词向量、类型ID信息和位置信息。

1260

被折叠的 条评论
为什么被折叠?



