大模型学习笔记——学习前的基础准备:论文中常见的数学符号与函数回顾

背景:

最近在学习大模型相关的内容,绕不开一个概概念:Transformer。

而Transformer的核心,源自2017年的一篇论文《Attention is all you need》

在论文阅读的过程中,遇到很多数学符号,不知道怎么读,也不记得代表什么~~~

在Transformer模型中,数学符号和函数是理解其工作原理的关键。以下是对常见数学符号的介绍,包括它们的读音、含义,以及对sigmoid、softmax、ReLU、GELU等常见函数的详细解释:

常见数学符号

  1. Σ(Sigma)

    • 读音:英音 /'sɪɡmə/,美音 /'sɪɡmə/
    • 含义:求和符号,用于表示对一系列数值进行求和。在Transformer中,可能用于计算注意力权重或损失函数等。
  2. π(Pi)

    • 读音:英音 /paɪ/,美音 /paɪ/
    • 含义:圆周率,但在Transformer的数学表达中不常见。在更广泛的数学和物理领域中,它表示圆的周长与直径之比。
  3. e

    • 读音:英音 /iː/,美音 /iː/
    • 含义:自然对数的底数,约等于2.71828。在Transformer中,可能出现在指数函数或softmax函数等中。
  4. ∂(Partial Derivative)

    • 读音:英音 /'pɑːʃl dɪ'rɪvətɪv/,美音 /'pɑrʃl dɪ'rɪvətɪv/
    • 含义:偏导数符号,用于表示多元函数对某一变量的导数。在Transformer的训练过程中,涉及梯度下降和反向传播时,会用到偏导数。
  5. ∇(Nabla)

    • 读音:英音 /'neɪblə/,美音 /'neɪblə/
    • **含义****:梯度符号,用于表示多元函数在某一点的梯度。在Transformer中,梯度用于更新模型的参数。

数学符号补充一:

  1. ∈(Element of)
    • 读音:英音 /ɪn/,美音 /ɪn/
    • 含义:表示某个元素属于某个集合。在Transformer中,可能用于描述词向量或隐藏状态属于某个特定的向量空间。
  2. ∉(Not an element of)
    • 读音:英音 /nɒt ɪn/,美音 /nɑːt ɪn/
    • 含义:表示某个元素不属于某个集合。
  3. ⊆(Subset)
    • 读音:英音 /sʌb'set/,美音 /sʌb'set/(作为符号时,读音可简化为类似“subset”的发音)
    • 含义:表示一个集合是另一个集合的子集。在Transformer中,可能用于描述词表或隐藏状态空间的包含关系。
  4. ∪(Union)
    • 读音:英音 /juːnɪən/,美音 /'juːnjən/
    • 含义:表示两个集合的并集。在Transformer中,可能用于合并不同的特征集或注意力权重。
  5. ∩(Intersection)
    • 读音:英音 /ɪn'tɜːseʃn/,美音 /ɪn'tɜːrseʃn/
    • 含义:表示两个集合的交集。在Transformer中,可能用于寻找共同的特征或注意力焦点。
  6. |x|(Absolute Value或Cardinality)
    • 读音:英音 /ˈæbsəluːt ˈvæljuː/(绝对值时)或 /kɑːdɪ'nælɪti/(基数时,但较少用此符号表示),美音类似
    • 含义:当x为实数时,表示x的绝对值;当x为集合时,表示集合的基数(即元素个数)。在Transformer中,可能用于计算序列长度或注意力权重的绝对值。
  7. ‖x‖(Norm)
    • 读音:英音 /nɔːm/,美音 /nɔːrm/
    • 含义:表示向量x的范数,如L1范数、L2范数等。在Transformer中,可能用于正则化或衡量向量的大小。
  8. ⊗(Tensor Product或Outer Product)
    • 读音:英音 /'tensə prɒdʌkt/(张量积时)或 /'aʊtə prɒdʌkt/(外积时),美音类似
    • 含义:表示两个向量或矩阵的张量积或外积。在Transformer中,可能用于计算注意力矩阵或特征融合。

数学符号补充二:

  1. ⊕(Direct Sum)

    • 读音:英音 /dɪ'rekt sʌm/,美音 /dɪ'rekt sʌm/(作为符号时,读音可简化为类似“direct sum”的发音)
    • 含义:表示两个向量的直和,常用于将两个向量拼接在一起。在Transformer中,可能用于拼接词嵌入向量和位置编码向量。
  2. ⊗(Kronecker Product)

    • 读音:英音 /'krɒnɪkə prɒdʌkt/,美音 /'kroʊnɪkər prɑːdʌkt/
    • 含义:表示两个矩阵的克罗内克积,是一种特殊的矩阵乘法。在Transformer中,可能用于某些特定的矩阵运算或特征融合。
  3. ‖·‖₂(L2 Norm)

    • 读音:英音 /'dʌbəl vɜːtɪkl l two nɔːm/,美音 /'dʌbəl vɜːrtɪkl l tuː nɔːrm/(L2范数通常读作"L two norm")
    • 含义:表示向量的L2范数,即向量元素平方和的平方根。在Transformer中,可能用于正则化或衡量向量的大小。

常见函数

  1. Sigmoid函数

    • 公式:σ(x)=1+e−x1​
    • 读音:英音 /'sɪɡmɔɪd/,美音 /'sɪɡmɔɪd/
    • 含义:Sigmoid函数是一种S型函数,它将任何实数映射到(0,1)区间内。在Transformer中,虽然不如在二分类问题中常见,但可能用于某些特定的激活函数或门控机制中。
    • 特点:平滑、易于求导,但可能存在梯度消失问题。
  2. Softmax函数

    • 公式:softmax(xi​)=∑j​exj​exi​​
    • 读音:无固定音标,可拆分为"soft"和"max"两部分发音
    • 含义:Softmax函数用于将一组实数转换为概率分布,即每个实数被转换为一个介于0和1之间的值,且所有值的和为1。在Transformer中,softmax函数用于计算注意力权重,决定模型在生成输出时应该关注输入序列的哪些部分。
    • 特点:输出为概率分布,适用于多分类问题。
  3. ReLU函数

    • 公式:ReLU(x)=max(0,x)
    • 读音:英音 /'riːluː/,美音 /'riːluː/(或按字母发音为"Rectified Linear Unit"的缩写)
    • 含义:ReLU函数是一种分段线性函数,当输入大于0时,输出等于输入;当输入小于或等于0时,输出为0。在Transformer中,ReLU函数常用作激活函数,引入非线性因素。
    • 特点:计算简单、高效,但可能存在神经元死亡问题(即某些神经元在训练过程中永远不会被激活)。
  4. GELU函数

    • 公式:GELU(x)=x⋅Φ(x),其中Φ(x)是标准正态分布的累积分布函数。近似公式为GELU(x)≈0.5x(1+tanh(π2​​(x+0.044715x3)))或GELU(x)≈x⋅σ(1.702x)(其中σ是sigmoid函数)。
    • 读音:英音 /'dʒiːluː/,美音 /'dʒiːluː/(或按字母发音为"Gaussian Error Linear Unit"的缩写)
    • 含义:GELU函数是一种非线性激活函数,旨在解决传统激活函数(如ReLU)的一些局限性。它结合了ReLU的稀疏性和Sigmoid的平滑性,在负输入时允许小幅“泄漏”(非零输出),从而保留一些负值信息。
    • 特点:平滑、连续导数,减少梯度消失问题,提高模型训练稳定性。在Transformer中,GELU函数常用作前馈神经网络的激活函数。

函数补充一:

  1. Tanh函数(双曲正切函数)
    • 公式:tanh(x)=ex+e−xex−e−x​
    • 读音:英音 /tæn'h/,美音 /tæn'h/(或按“hyperbolic tangent”发音)
    • 含义:将实数映射到(-1,1)区间内,是Sigmoid函数的变种。在Transformer中,可能用于激活函数或门控机制。
    • 特点:平滑、易于求导,输出范围有限,有助于防止梯度爆炸。
  2. LeakyReLU函数
    • 公式:LeakyReLU(x)=max(αx,x),其中α是一个小的正数(如0.01)。
    • 读音:英音 /'liːki riːluː/,美音 /'liːki riːluː/
    • 含义:是ReLU函数的变种,允许负输入有小幅的“泄漏”输出。
    • 特点:解决了ReLU函数的神经元死亡问题,但引入了额外的超参数α。
  3. Swish函数
    • 公式:Swish(x)=x⋅σ(βx),其中σ是Sigmoid函数,β是一个可学习的参数或固定值。
    • 读音:英音 /swɪʃ/,美音 /swɪʃ/
    • 含义:是一种自门控激活函数,通过Sigmoid函数来控制输入的线性变换。
    • 特点:平滑、非单调,有助于提高模型的表达能力。
  4. ELU函数(指数线性单元)
    • 公式:ELU(x)={x,α(ex−1),​if x>0if x≤0​,其中α是一个正数。
    • 读音:英音 /'iːluː/,美音 /'iːluː/
    • 含义:是ReLU函数的另一种变种,当输入小于0时,输出一个负的指数函数值。
    • 特点:平滑、有助于减少梯度消失问题,但计算稍复杂。
  5. Mish函数
    • 公式:Mish(x)=x⋅tanh(softplus(x)),其中softplus(x)=ln(1+ex)。
    • 读音:无固定音标,可按“mish”发音
    • 含义:是一种自正则化非单调神经激活函数,结合了ReLU和Swish的特点。
    • 特点:平滑、非单调、自正则化,有助于提高模型的泛化能力。
  6. Log-Softmax函数
    • 公式:Log−Softmax(xi​)=ln(softmax(xi​)),其中softmax函数如前所述。
    • 读音:英音 /lɒg 'sɒftmæks/,美音 /lɑːg 'sɒftmæks/
    • 含义:是softmax函数的对数变换,常用于计算对数概率或损失函数。
    • 特点:将概率值转换为对数概率值,有助于数值稳定性和梯度计算。

函数补充二:

  1. Exponential Linear Unit(ELU)函数

    • 公式:ELU(x)={x,α(ex−1),​if x>0if x≤0​,其中α是一个正数。
    • 含义:ELU函数是ReLU函数的变种,当输入小于0时,输出一个负的指数函数值,有助于减少梯度消失问题。
  2. Swish函数

    • 公式:Swishβ​(x)=x⋅σ(βx)=1+e−βxx​,其中σ是Sigmoid函数,β是一个可学习的参数或固定值。当β=1时,称为SiLU(Sigmoid Linear Unit)函数。
    • 含义:Swish函数是一种自门控激活函数,通过Sigmoid函数来控制输入的线性变换,有助于提高模型的表达能力。
  3. SwiGLU函数

    • 公式:SwiGLU(x)=SiLU(xW+b)⋅(xV+c),其中SiLU是Sigmoid Linear Unit函数,W、V是权重矩阵,b、c是偏置向量。
    • 含义:SwiGLU函数是Swish函数与线性函数的乘积,参数在训练中学习。它因其复杂性而流行,展开公式可见分子中的二次项,帮助模型无需额外层即可学习复杂模式。
  4. Levi-Civita符号(ε)

    • 含义:在物理学和数学中,Levi-Civita符号用于简洁地表达叉积等运算。在Transformer的某些高级数学表达中,可能会用到这一符号来简化张量运算的表示。

以上,仅作为学习资料记录,供学习过程中翻阅!

于2024年4月-2025年9月期间,研究团队在贵州习水国家级自然保护区制定39条样线,涵盖灌木林、常绿阔叶林、针叶林、常绿落叶阔叶混交林、针阔混交林等不同植被类型,每条样线分春夏秋冬4个季节采集样品,用真菌采集软件记录经纬度、海拔、采集地点、时间、生境等信息,使用佳能相机(R6 mark Ⅱ)对大型真菌进行拍照,并采集标本,标本存放于贵州省生物研究所大型真菌标本馆(HGAMF)。 通过形态学初步鉴定,结合分子生物学最终鉴定,参考已]报道的中国毒蘑菇名录开展毒蘑菇的认定。 调查到保护区内有毒真菌7目25科64种,导致中毒的主要类型有急性肾衰竭型、神经精神型和胃肠炎型。最终形成贵州习水国家级自然保护区大型有毒真菌图片数据集,它由以下2个部分组成。 (1)附件1包含78张原始照片(.JPG),照片名字包括了大型有毒真菌的拉丁名和中文名,若无中文名的直接用拉丁名。 (2)附件2是一个压缩文件,包含了2张工作表,其中一张表是大型有毒真菌39条样线的信息,另一张表是大型有毒真菌的中毒类型。 照片采用佳能相机R6 mark Ⅱ拍摄,物种鉴定通过多种文献核实,并经两位以上专家鉴定确认。该数据集可为研究地及周边的普通人识别有毒大型真菌提供参考,通过及时的图片对比,能有效避免误采误食大型有毒真菌,同时为因误食大型真菌可能引发的身体损伤进行了总结,能为患者及时治疗提供参考。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jack_abu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值