Transformer入门Transformer和CNN之间的区别

最新推荐文章于 2026-04-04 18:11:16 发布

原创

最新推荐文章于 2026-04-04 18:11:16 发布 · 3.1w 阅读

105

标签

#人工智能

本文探讨了Transformer模型的核心——Self-Attention机制，指出其与CNN和RNN的区别。Transformer利用Self-Attention捕捉上下文关系，通过多头注意力增强表达能力。文章详细解释了Scaled Dot-Product Attention的计算过程，并与CNN的局部相关性进行了对比，强调Transformer在NLP领域的优势。此外，还介绍了Transformer的前馈网络和残差连接，以及其在图像处理领域的应用潜力。

跟风，听说最近Transformer很热，那肯定有其过人之处，今天大概看了一下最基础版的Transformer，简单说说体会和理解吧，不一定对，希望路过的大神指点。

要说是革命性的变革，那显然不是，Transformer和CNN以及RNN等都是机器学习的范畴，要说一点没变，那也不是，Transformer最大的特点，个人理解，是其Self-Attention机制，至于说这个机制是从哪儿得到的启发，暂不多说，搞过CNN的都知道。搞CNN的都习惯一个图片矩阵，那接下来的见解，我就以二维矩阵来说。

preview 还是原文的图，这里的X是将每一个单词embed到N维的空间中，每一个词对应一个行向量，将一个句子的每一个单词都映射过来，组成一个大小固定的矩阵。对于不同单词数的句子，使用padding的方式扩充。那矩阵到底有多少行？没错，就是你猜的那样，数据库中每个句子的最大单词数。英语老师天天说结合语境，结合语境，那其实就是上下文的关系，这就是Self-Attention的核心思想。具体到数学表达上，这个关系的强弱，就是相关性，那就来劲儿了，协方差矩阵！没错，就是这货，但是原文不是这么描述的，这是本人看完后的第一印象，本篇文章会一直沿用这个词，但是文中并不是标准的协方差，暂且称其为“伪协方差”吧。这里如果对每个单词的embedding编码直接相关，那没意义啊，我们还没有理解这个编码，因此，在Self-Attention的第一步就是做一个矩阵映射，这一组矩阵就是Self-Attention中要训练的矩阵：