基于Transformer架构训练LLM大语言模型:Transformer架构工作原理

视频讲解:Transformer架构的工作原理讲解_哔哩哔哩_bilibili

一 Transformer架构总体架构

1 总体架构图

总体架构说明:

输入层

  • 词嵌入(Word Embeddings): 输入文本中的每个词都被映射到一个高维空间中的向量,这些向量捕捉到了词义信息。
  • 位置编码(Positional Encoding): 为了使模型能够区分输入序列中词的位置信息,位置编码被加到词嵌入之上。位置编码确保模型知道每个词在其所在序列中的相对或绝对位置。

编码器(Encoder)

  • 多头注意力(Multi-head Attention): Transformer使用自注意力机制让每个位置的词与序列中的所有其他位置进行交互。多头注意力意味着将注意力机制分解成多个并行的注意力函数,每个函数有不同的参数,从而模型可以从不同的表示子空间中聚合信息。
  • 前馈神经网络(Feed Forward Neural Networks): 每个编码器层后面都有一个完全连接的前馈网络,用于对信息进行进一步处理。
  • 残差连接与层归一化(Residual Connections and Layer Normalization): 在每个多头
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值