Transformer入门(一)——结构


前言


一、Transformer的产生和基础思想

 1.1 Transformer的Motivation

   Transformer是由谷歌于2017年提出。最初是用在NLP领域,在此之前NLP方向的SOTA模型都是以循环神经网络为基础(RNN, LSTM等)。 本质上讲,RNN是以串行的方式处理数据,对应到NLP任务上,即按句中词语的先后顺序,每一个时间步长处理一个词语。然而,Transformer的巨大创新便在于它并行化的处理:文本中的所有词语都可以在同一时间进行分析,而不是按照序列先后顺序。为了支持这种并行化的处理方式,Transformer依赖于注意力机制。注意力机制可以让模型考虑任意两个词语之间的相互关系,且不受它们在文本序列中位置的影响。通过分析词语之间的两两相互关系,来决定应该对哪些词或短语赋予更多的注意力。

 1.2 Transformer的原始框架

   Transformer采用Encoder-Decoder架构,下图就是Transformer的结构。其中左半部分是encoder,右半部分是decoder。
   【PS:Encoder-Decoder架构不是具体的模型,而是泛指一类结构,不同的任务可以用不同的编码器和解码器 (RNN,CNN,LSTM)。编码就是将输入Seq转化成固定长度向量,解码就是把之前生成的固定向量再转化为Seq】
Transformer初始结构图
   Encoder:左边编码部分有N个相同的Encoder层叠加,每个Encoder层结构包含了两个子层,第一个子层是多头注意力层(Multi-Head Attention,橙色部分),第二个子层是前馈连接层(Feed Forward,浅蓝色部分)。 除此之外,还有一个残差连接,直接将input embedding传给第一个Add & Norm层(黄色部分)以及第一个Add & Norm层传给第二个Add & Norm层(即图中的粉色–>黄色1,黄色1–>黄色2部分运用了残差连接)。

   Decoder:右边解码部分有N个相同的Decoder层结构,相比Endoer,它有三个子层。第一个子层结构是遮掩多头注意力层(Masked Multi-Head Attention,橙色部分),第二个子层是多头注意力结构(Multi-Hea

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值