视频讲解:Transformer架构的工作原理讲解_哔哩哔哩_bilibili
一 Transformer架构总体架构
1 总体架构图

总体架构说明:
输入层
- 词嵌入(Word Embeddings): 输入文本中的每个词都被映射到一个高维空间中的向量,这些向量捕捉到了词义信息。
- 位置编码(Positional Encoding): 为了使模型能够区分输入序列中词的位置信息,位置编码被加到词嵌入之上。位置编码确保模型知道每个词在其所在序列中的相对或绝对位置。
编码器(Encoder)
- 多头注意力(Multi-head Attention): Transformer使用自注意力机制让每个位置的词与序列中的所有其他位置进行交互。多头注意力意味着将注意力机制分解成多个并行的注意力函数,每个函数有不同的参数,从而模型可以从不同的表示子空间中聚合信息。
- 前馈神经网络(Feed Forward Neural Networks): 每个编码器层后面都有一个完全连接的前馈网络,用于对信息进行进一步处理。
- 残差连接与层归一化(Residual Connections and Layer Normalization): 在每个多头


60

被折叠的 条评论
为什么被折叠?



