参考:李宏毅Transformer讲解视频_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
参考:Transformer — PaddleEdu documentation



总结
Transformer,它是完全基于 注意力机制,摒弃了RNN和CNN的网络结构,并且可以并行计算。 (特性)
Transformer 是由 6个编码器、6个解码器(encoder-decoder) 组成的的 序列模型(Seq2Seq Model)。 (结构)
Transformer 可以作为强大的特征提取器,也适用于很多机器翻译、阅读理解等下游任务。 (功能)
(细节)
目录
一、Introduction
Transformer 是 Google 团队在 17 年 6 月提出的 NLP 经典之作,
由 Ashish Vaswani 等人在 2017 年发表的论文 Attention is All You Need 中提出。
Transformer 在机器翻译任务上的表现超过了 RNN,CNN,只用 encoder-decoder 和 attention 机制就能达到很好的效果。Transformer凭借强大的 特征提取能力 以及 并行计算效率, 逐渐取代RNN,成为了自然语言处理领域最受欢迎的特征提取器。
二、Transformer结构
2.1 Eencoder - Decoder 结构

<
超级会员免费看
Transformer是Google于2017年提出的一种完全基于注意力机制的序列模型,抛弃了RNN和CNN。它由6个编码器和6个解码器组成,擅长机器翻译和特征提取。Transformer的结构包括Encoder-Decoder结构,self-attention机制和BatchNorm/LayerNorm。在Decoder中,特别引入了Masked Multi-head attention来处理序列信息。
订阅专栏 解锁全文

1万+

被折叠的 条评论
为什么被折叠?



