关于Transformer、BERT的理解

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

  结合李宏毅老师机器学习2021——Transformer课程和网上查阅的资料,总结一下对Transformer的理解

Transformer是什么?

  从宏观角度来看,Transformer是一种基于Self-Attention机制的Seq2seq模型(序列模型),是用于机器翻译的,由编码器和解码器组成(自己总结的)。所以在学习Transformer前,需要先弄明白Seq2seq、编码器 / 解码器、Self-Attention(见本人之前的csdn博客)是什么。

  • Seq2seq模型:
      这是一个序列到序列的模型,输入一个序列,输出另一个序列,通常可用于NLP任务,例如机器翻译、语音识别等等。这个Seq2seq模型包含了一个编码器和一个解码器(换言之,有编码器和解码器的模型就可以认为是Seq2seq模型的范畴)。因此呢,Seq2seq模型有很多种变形,例如编码器 / 解码器可以是RNN,LSTM、也可以是CNN,还可以是Self-Attention等等。
      但是要特别注意,Seq2seq和RNN / LSTM等是不同层面的东西,Seq2seq模型专指输入和输出均为序列的模型,LSTM 等可以用作其编码器和解码器的一种实现方法。但 RNN / LSTM 并不是Seq2seq模型的子集,它们也可以用来做别的问题。
  • 编码器 / 解码器:
      所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列。具体实现的时候,编码器和解码器都不是固定的,可选的有RNN / BiRNN / GRU / LSTM等等都是可以的,你可以自由组合。比如说,你在编码时使用BiRNN,解码时使用RNN,或者在编码时使用RNN,解码时使用LSTM等等。(最基础的是编码解码都是RNN)
    在这里插入图片描述</

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值