结合李宏毅老师机器学习2021——Transformer课程和网上查阅的资料,总结一下对Transformer的理解
Transformer是什么?
从宏观角度来看,Transformer是一种基于Self-Attention机制的Seq2seq模型(序列模型),是用于机器翻译的,由编码器和解码器组成(自己总结的)。所以在学习Transformer前,需要先弄明白Seq2seq、编码器 / 解码器、Self-Attention(见本人之前的csdn博客)是什么。
- Seq2seq模型:
这是一个序列到序列的模型,输入一个序列,输出另一个序列,通常可用于NLP任务,例如机器翻译、语音识别等等。这个Seq2seq模型包含了一个编码器和一个解码器(换言之,有编码器和解码器的模型就可以认为是Seq2seq模型的范畴)。因此呢,Seq2seq模型有很多种变形,例如编码器 / 解码器可以是RNN,LSTM、也可以是CNN,还可以是Self-Attention等等。
但是要特别注意,Seq2seq和RNN / LSTM等是不同层面的东西,Seq2seq模型专指输入和输出均为序列的模型,LSTM 等可以用作其编码器和解码器的一种实现方法。但 RNN / LSTM 并不是Seq2seq模型的子集,它们也可以用来做别的问题。 - 编码器 / 解码器:
所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列。具体实现的时候,编码器和解码器都不是固定的,可选的有RNN / BiRNN / GRU / LSTM等等都是可以的,你可以自由组合。比如说,你在编码时使用BiRNN,解码时使用RNN,或者在编码时使用RNN,解码时使用LSTM等等。(最基础的是编码解码都是RNN)
</


8567

被折叠的 条评论
为什么被折叠?



