1.1语言模型(LM)
将文本转化为概率分布,假设一个单词为一个元素x(对于英文文本而言),如果想正确的表达一句话,那么需要以正确的顺序组合单词,而词序正确的句子应该概率最高,这样才能正确表达文本。最常见的方法就是求x(1:L)的概率值
自回归语言模型(Autoregressive language models)
使用链式法则求x(1:L)的联合分布概率。
该式由条件分布公式可以推出。
自回归语言模型的特点是它可以利用例如前馈神经网络等方法法有效计算出每个条件概率分布。(存疑,具体怎么算我还是不太清楚)
在语言模型中,退火条件概率分布中的温度参数(temperature parameter)是用来控制生成文本的多样性和随机性的参数。它通常应用于基于概率的文本生成模型,例如循环神经网络 (Recurrent Neural Network, RNN) 中的语言模型。
温度参数在语言模型中用来调整生成的文本的分布形状。具体来说,较高的温度参数会使生成的文本更加多样化和随机化,而较低的温度参数会使生成的文本更加倾向于高概率的预测结果。 举例来说,假设我们有一个经过训练的语言模型,用于生成下一个单词的预测。在一个特定的语境下,模型会给出在给定词汇表上每个单词的条件概率分布。如果将温度参数设置为较高的值(例如1.0),则生成的文本更倾向于从较低的条件概率中进行选择,使得生成文本更加多样。而如果将温度参数设置为较低的值(例如0.5),则生成的文本更倾向于从较高的概率中进行选择,使得生成文本更加确定性。 以语言模型生成句子为例,较高温度参数的生成示例可能如下: 原句: "I love to" 高温度参数生成(例如1.0): - "I love to dance" - "I love to sing" - "I love to eat" 较低温度参数的生成示例可能如下: 原句: "I love to" 低温度参数生成(例如0.5): - "I love to eat" - "I love to eat" - "I love to eat"
通过调整温度参数,可以改变分布的倾斜程度和峰度影响分布形状。较高温度值使得分布更均匀,较低温度值使得分布更尖锐。可以控制生成文本的多样性和随机性,从而根据需要产生不同风格或类型的文本。 需要注意的是,具体的温度参数值的选择是依赖于具体任务和模型的特点,并需要进行实验和调优来确定最佳的值。
当我们需要⼀次生成⼀个令牌(token)
,该令牌基于之前以生成的令牌进行计算获得:

T=0
:确定性地在每个位置
i
选择最可能的令牌
T=1
:从纯语⾔模型
“
正常(
normally
)
”
采样
T=
∞
:从整个词汇表上的均匀分布中采样
仅将概率提高到的次方,概率分布可能不会加和到 1。因此使用
退火条
件概率分布:

例如:
(怎么算出来的?)
T=0.5时,P(chesse)=0.16,P(mouse)=0.36,再进行归一化即可得到上述结果,其他的相同。
1.2 大模型相关历史回顾
信息论、英语的熵、N-gram模型
N-gram模型
N-gram模型是一种用于语言建模的统计模型。它基于一个简单的假设,即当前的词的出现只与前面的N-1个词相关。这个N-1个词序列被称为上下文(context),当前的词被称为目标词(target word)。N-gram模型通过统计文本中出现的词序列的频次,计算目标词在给定上下文中的条件概率。
神经语言模型
(纯学习记录,欢迎大佬指出错误)
&spm=1001.2101.3001.5002&articleId=134934932&d=1&t=3&u=131a91f1a8c845619d2c348c15d9d739)

被折叠的 条评论
为什么被折叠?



