Transformer从零详细解读

原创

已于 2025-07-14 09:45:20 修改 · 1.8k 阅读

·

54

·

标签

#transformer #深度学习 #人工智能

于 2024-12-09 12:43:44 首次发布

1.从全局角度概括Transformer

输入汉字:我爱你到Transformer中处理后会得到一个输出的结果:I LOVE YOU

对Transformer进行细化:

TRM结果可以分文两部分一部分是Encoders(编码器) 一部分是Decoders(解码器) 简单的流程就是 "我爱你"输入到Encoders中处理后作为Decoders的输入处理后输出"I LOVE YOU"

进一步细化:

需要注意 Encoder有6个结构完全相同的小Encoder,Decoder也是由6个结构完全相同的小Decoder组成,数字可以是自己定这6个解码器和编码器在结构上完全相同但是在参数上是不同的也就是说在训练的过程中不是训练了一个Encoder然后复制6个而是6个Encoder一同训练

论文中的结构:

Nx = 6，Encoder block由6个encoder堆叠而成，图中的一个框代表的是一个encoder的内部结构，一个Encoder是由Multi-Head Attention和全连接神经网络Feed Forward Network构成。如下图所示

Nx:是编码器或者解码器的个数为N个数量可以由自己定

2.Encoder编码器

1.输入部分

1.Embedding

Embedding属于NLP(自然语言处理)的入门知识我们之前学习的RNN与语言处理有关所以在这篇博客上发布了一些关于自然语言处理的知识 #深度学习继卷积之后—RNN_bp神经网络和rnn-CSDN博客

比如说我们输入的数据是:我爱你... 12个汉字我们按字切分每个字对应一个512维的字向量(可以使用Word2vec 或者是初始化)

2.位置编码

为什么需要:

在RNN当中需要注意的是每一次循环使用的W U V都是一样的使用的是一套的参数在后续更新的过程中更新的也是这共享的一套参数

(插一个小的知识点:RNN的梯度消失有什么不同?

或许会说是由于连乘效应所以导致了梯度消失这个原因放在RNN中不太准确因为RNN的梯度消失和普通网络消失的原因不一样

RNN的梯度是一个总的梯度和他的梯度消失并不是变为0 而是说总梯度被近梯度主导远距离梯度忽略不计)

在RNN中输入完"我" 需要等处理完"

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。