1.从全局角度概括Transformer
输入汉字:我爱你 到Transformer中处理后会得到一个输出的结果:I LOVE YOU
对Transformer进行细化:

TRM结果可以分文两部分 一部分是Encoders(编码器) 一部分是Decoders(解码器) 简单的流程就是 "我爱你"输入到Encoders中处理后作为Decoders的输入 处理后输出"I LOVE YOU"
进一步细化:

需要注意 Encoder有6个结构完全相同的小Encoder,Decoder也是由6个结构完全相同的小Decoder组成,数字可以是自己定 这6个解码器和编码器在结构上完全相同 但是在参数上是不同的 也就是说 在训练的过程中 不是训练了一个Encoder然后复制6个 而是6个Encoder一同训练
论文中的结构:
Nx = 6,Encoder block由6个encoder堆叠而成,图中的一个框代表的是一个encoder的内部结构,一个Encoder是由Multi-Head Attention和全连接神经网络Feed Forward Network构成。如下图所示

Nx:是编码器或者解码器的个数为N个 数量可以由自己定
2.Encoder编码器

1.输入部分
1.Embedding
Embedding属于NLP(自然语言处理)的入门知识 我们之前学习的RNN与语言处理有关 所以在这篇博客上发布了一些关于自然语言处理的知识 #深度学习继卷积之后—RNN_bp神经网络和rnn-CSDN博客

比如说我们输入的数据是:我爱你... 12个汉字 我们按字切分 每个字对应一个512维的字向量(可以使用Word2vec 或者是初始化)
2.位置编码
为什么需要:

在RNN当中需要注意的是 每一次循环使用的W U V都是一样的 使用的是一套的参数 在后续更新的过程中 更新的也是这共享的一套参数
(插一个小的知识点:RNN的梯度消失有什么不同?
或许会说是由于连乘效应 所以导致了梯度消失 这个原因放在RNN中不太准确 因为RNN的梯度消失和普通网络消失的原因不一样
RNN的梯度是一个总的梯度和 他的梯度消失并不是变为0 而是说 总梯度被近梯度主导 远距离梯度忽略不计)
在RNN中 输入完"我" 需要等处理完"


4万+

被折叠的 条评论
为什么被折叠?



