Transformer入门（一）——结构

原创

已于 2022-06-02 20:53:06 修改 · 9.3k 阅读

标签

#transformer #自然语言处理 #深度学习 #计算机视觉

于 2022-06-02 18:25:22 首次发布

文章目录

前言
一、Transformer的产生和基础思想
二、Encoder中重要模块的具体实现
三、Encoder的叠加

前言

一、Transformer的产生和基础思想

1.1 Transformer的Motivation

Transformer是由谷歌于2017年提出。最初是用在NLP领域，在此之前NLP方向的SOTA模型都是以循环神经网络为基础（RNN, LSTM等）。本质上讲，RNN是以串行的方式处理数据，对应到NLP任务上，即按句中词语的先后顺序，每一个时间步长处理一个词语。然而，Transformer的巨大创新便在于它并行化的处理：文本中的所有词语都可以在同一时间进行分析，而不是按照序列先后顺序。为了支持这种并行化的处理方式，Transformer依赖于注意力机制。注意力机制可以让模型考虑任意两个词语之间的相互关系，且不受它们在文本序列中位置的影响。通过分析词语之间的两两相互关系，来决定应该对哪些词或短语赋予更多的注意力。

1.2 Transformer的原始框架

Transformer采用Encoder-Decoder架构，下图就是Transformer的结构。其中左半部分是encoder，右半部分是decoder。
【PS：Encoder-Decoder架构不是具体的模型，而是泛指一类结构，不同的任务可以用不同的编码器和解码器 (RNN，CNN，LSTM)。编码就是将输入Seq转化成固定长度向量，解码就是把之前生成的固定向量再转化为Seq】
Transformer初始结构图
Encoder：左边编码部分有N个相同的Encoder层叠加，每个Encoder层结构包含了两个子层，第一个子层是多头注意力层（Multi-Head Attention,橙色部分），第二个子层是前馈连接层（Feed Forward，浅蓝色部分）。除此之外，还有一个残差连接，直接将input embedding传给第一个Add & Norm层（黄色部分）以及第一个Add & Norm层传给第二个Add & Norm层（即图中的粉色–>黄色1，黄色1–>黄色2部分运用了残差连接）。