BERT执行原理

最新推荐文章于 2025-08-22 13:50:38 发布

原创

最新推荐文章于 2025-08-22 13:50:38 发布 · 684 阅读

·

0

·

标签

#自然语言处理

BERT模型对文本进行wordpiece或字级别处理，将序列转换为token ID，结合类型ID和位置编码进行self-attention。当序列长度超过最大值时，进行截断或填充。模型包含embedding层和Transformer的encoder层，输出包括词向量、类型ID信息和位置信息。

BERT处理英文有wordpiece分词操作
BERT处理中文是把中文分成一个一个的字进行处理
总的来说bert会把文本划分成更加细粒度的文本来处理

在这里插入图片描述
两句话有三个特征字符
一句话有两个特征字符
CLS表示待分类特征
如果序列A和序列B加起来超过了最大长度，就采取截断操作

通过vocab.txt把token转换成对应的id

在这里插入图片描述
通过vocab.txt把token转换成对应的id，然后通过id去查找层找到对应的词向量（word embedding）

如果我们设置最大长度为128，那么在做序列对比较的时候，遵循多退少补的原则。如果两个序列加起来的长度没有128，那么要在最后补上0，使其长度达到128；如果两个序列加起来的长度超过了128，那么就要采取截断操作。

在最后补0的情况：0也代表了某个词的索引，在后期做self-attention的时候，这些0起不了什么作用

bert 的输入由三种向量组成，这三种向量的维度是相同的

视频里设置的batchsize是8，自己设置的batchsize是32，所以笔记比较混乱，有的用的8，有的用的32

input（32，128）output（32，128，768）
768代表每个词向量的维度

type_id 表示当前的token是属于第一句话还是属于第二句话（0，1）
对于type_id 二分类问题使用了one_hot编码

加入type_id 编码和位置编码以后，output（32，128，768）的形状没有改变，只是在其中融入了type_id 信息和位置

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。