[预训练语言模型] 第三章 transformer & attention

原创已于 2022-03-16 23:23:56 修改 · 546 阅读

标签

#python

于 2021-10-28 15:14:08 首次发布

nlp 专栏收录该内容

116 篇文章 ¥14.95

订阅专栏¥29.90

限时秒杀 ¥14.95 限时期限

超级会员免费看

Transformer是Google于2017年提出的一种完全基于注意力机制的序列模型，抛弃了RNN和CNN。它由6个编码器和6个解码器组成，擅长机器翻译和特征提取。Transformer的结构包括Encoder-Decoder结构，self-attention机制和BatchNorm/LayerNorm。在Decoder中，特别引入了Masked Multi-head attention来处理序列信息。

参考：李宏毅Transformer讲解视频_哔哩哔哩 (゜-゜)つロ干杯~-bilibili

参考：图解什么是 Transformer - 简书

参考：Transformer — PaddleEdu documentation

总结

Transformer，它是完全基于 注意力机制，摒弃了RNN和CNN的网络结构，并且可以并行计算。（特性）

Transformer 是由 6个编码器、6个解码器(encoder-decoder) 组成的的 序列模型(Seq2Seq Model)。 (结构)

Transformer 可以作为强大的特征提取器，也适用于很多机器翻译、阅读理解等下游任务。（功能）

（细节）

一、Introduction

二、Transformer结构

2.1 Eencoder - Decoder 结构

Softmax FC全连接线性层预测输出词

2.2 self- attention 机制

Multi-head

2.3 BatchNorm & LayerNorm