关于Transformer、BERT的理解

原创

已于 2022-03-28 22:23:55 修改 · 9.6k 阅读

·

24

·

标签

#transformer #深度学习 #自然语言处理

于 2022-01-17 22:25:51 首次发布

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

结合李宏毅老师机器学习2021——Transformer课程和网上查阅的资料，总结一下对Transformer的理解

Transformer是什么？

从宏观角度来看，Transformer是一种基于Self-Attention机制的Seq2seq模型（序列模型），是用于机器翻译的，由编码器和解码器组成（自己总结的）。所以在学习Transformer前，需要先弄明白Seq2seq、编码器 / 解码器、Self-Attention（见本人之前的csdn博客）是什么。

Seq2seq模型：
这是一个序列到序列的模型，输入一个序列，输出另一个序列，通常可用于NLP任务，例如机器翻译、语音识别等等。这个Seq2seq模型包含了一个编码器和一个解码器（换言之，有编码器和解码器的模型就可以认为是Seq2seq模型的范畴）。因此呢，Seq2seq模型有很多种变形，例如编码器 / 解码器可以是RNN，LSTM、也可以是CNN，还可以是Self-Attention等等。
但是要特别注意，Seq2seq和RNN / LSTM等是不同层面的东西，Seq2seq模型专指输入和输出均为序列的模型，LSTM 等可以用作其编码器和解码器的一种实现方法。但 RNN / LSTM 并不是Seq2seq模型的子集，它们也可以用来做别的问题。
编码器 / 解码器：
所谓编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列。具体实现的时候，编码器和解码器都不是固定的，可选的有RNN / BiRNN / GRU / LSTM等等都是可以的，你可以自由组合。比如说，你在编码时使用BiRNN,解码时使用RNN，或者在编码时使用RNN,解码时使用LSTM等等。（最基础的是编码解码都是RNN）
</

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。