[预训练语言模型] 第三章 transformer & attention

Transformer是Google于2017年提出的一种完全基于注意力机制的序列模型,抛弃了RNN和CNN。它由6个编码器和6个解码器组成,擅长机器翻译和特征提取。Transformer的结构包括Encoder-Decoder结构,self-attention机制和BatchNorm/LayerNorm。在Decoder中,特别引入了Masked Multi-head attention来处理序列信息。

参考:李宏毅Transformer讲解视频_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

参考:图解什么是 Transformer - 简书

参考:Transformer — PaddleEdu documentation

总结

Transformer,它是完全基于 注意力机制,摒弃了RNN和CNN的网络结构,并且可以并行计算。    (特性)

Transformer 是由 6个编码器、6个解码器(encoder-decoder) 组成的的 序列模型(Seq2Seq Model)。                                                                                                               (结构)

Transformer 可以作为强大的特征提取器,也适用于很多机器翻译、阅读理解等下游任务。                                                                                                                                (功能)

(细节)

目录

一、Introduction

二、Transformer结构 

2.1 Eencoder - Decoder 结构

Softmax FC全连接线性层 预测输出词

2.2 self- attention 机制

Multi-head

2.3 BatchNorm & LayerNorm


一、Introduction

Transformer 是 Google 团队在 17 年 6 月提出的 NLP 经典之作,
由 Ashish Vaswani 等人在 2017 年发表的论文 Attention is All You Need 中提出。

Transformer 在机器翻译任务上的表现超过了 RNN,CNN,只用 encoder-decoder 和 attention 机制就能达到很好的效果。Transformer凭借强大的 特征提取能力 以及 并行计算效率, 逐渐取代RNN,成为了自然语言处理领域最受欢迎的特征提取器。

二、Transformer结构 

2.1 Eencoder - Decoder 结构

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值