Transformer入门Transformer和CNN之间的区别

本文探讨了Transformer模型的核心——Self-Attention机制,指出其与CNN和RNN的区别。Transformer利用Self-Attention捕捉上下文关系,通过多头注意力增强表达能力。文章详细解释了Scaled Dot-Product Attention的计算过程,并与CNN的局部相关性进行了对比,强调Transformer在NLP领域的优势。此外,还介绍了Transformer的前馈网络和残差连接,以及其在图像处理领域的应用潜力。

跟风,听说最近Transformer很热,那肯定有其过人之处,今天大概看了一下最基础版的Transformer,简单说说体会和理解吧,不一定对,希望路过的大神指点。

要说是革命性的变革,那显然不是,Transformer和CNN以及RNN等都是机器学习的范畴,要说一点没变,那也不是,Transformer最大的特点,个人理解,是其Self-Attention机制,至于说这个机制是从哪儿得到的启发,暂不多说,搞过CNN的都知道。搞CNN的都习惯一个图片矩阵,那接下来的见解,我就以二维矩阵来说。

preview还是原文的图,这里的X是将每一个单词embed到N维的空间中,每一个词对应一个行向量,将一个句子的每一个单词都映射过来,组成一个大小固定的矩阵。对于不同单词数的句子,使用padding的方式扩充。那矩阵到底有多少行?没错,就是你猜的那样,数据库中每个句子的最大单词数。英语老师天天说结合语境,结合语境,那其实就是上下文的关系,这就是Self-Attention的核心思想。具体到数学表达上,这个关系的强弱,就是相关性,那就来劲儿了,协方差矩阵!没错,就是这货,但是原文不是这么描述的,这是本人看完后的第一印象,本篇文章会一直沿用这个词,但是文中并不是标准的协方差,暂且称其为“伪协方差”吧。这里如果对每个单词的embedding编码直接相关,那没意义啊,我们还没有理解这个编码,因此,在Self-Attention的第一步就是做一个矩阵映射,这一组矩阵就是Self-Attention中要训练的矩阵:

W_{i}^{Q},W_{i}^{K},W_{i}^{V},i=0,1,...,7

至于为啥是Multihead &nbs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值