LLM评估有哪些指标? ROUGE 分数、BLEU、困惑度、MRR、BERTScore

最新推荐文章于 2026-03-17 01:26:08 发布

原创

最新推荐文章于 2026-03-17 01:26:08 发布 · 3.9k 阅读

标签

#人工智能 #大模型

困惑度 Perplexity
1. 如何计算？
BLEU分数
1. 步骤 1：计算 n-gram 精度。
2. 第 2 步：简洁惩罚（BP）
ROUGE 分数
1. ROUGE-N
2. ROUGE-L
3. ROUGE-S
4. ROUGE-SU
5. ROUGE-W
MRR平均倒数排名
BERT 分数
1. 1. 标记化和嵌入生成
2. 1. 余弦相似度计算
3. 1. 最佳匹配策略
4. 1. 准确率、召回率、F1 分数计算

LLM评估有哪些指标? ROUGE 分数、BLEU、困惑度、MRR、BERTScore 数学和示例

困惑度 Perplexity

不要将它与 ChatGPT 的竞争对手困惑度 (Perplexity) 混淆，但它是用于评估语言模型预测答案中单词序列的能力的关键指标。此外，它不需要 Ground Truth！

困惑度衡量模型在预测序列中的下一个单词时的“困惑”或“混乱”程度。
困惑度越低，意味着混乱程度越低，这意味着它能够更好地预测下一个单词。
相反，困惑度越高，表示混乱程度越高，这意味着模型很难正确预测下一个单词。

所以，

如果Perplexity=1，则模型以 100% 的准确率完美地预测该序列。
Perplexity=10可以解释为模型在序列中的每个点上平均有 10 个同样可能的选项。因此非常困惑。

如何计算？

exp(- (1/N) * Σ log(P(w_i | w_1, w_2, …, w_i-1)))
P(w_i | w_1, w_2, …, w_i-1) = 给定前面的单词 (w_1, w_2, …, w_i-1) 作为上下文，语言模型分配给序列中第 i 个单词 (w_i) 的条件概率。
N =长度

假设 LLM 预测某些提示为“猫坐在垫子上。”。

**步骤 1：**根据前面的单词计算每个单词的概率。对于此示例，我们假设以下值：

P(“The”) = 0.5
P(“cat”|“The”) = 0.4
P(“sat”|“The cat”) = 0.3
P(“on”|“The cat sat”) = 0.4
P(“the”|“The cat sat”) = 0.5
P(“mat”|“The cat sat on”) = 0.6

**第 2 步：**应用对数并将这些概率加在一起

log(P(“The”)) +
log(P(“cat”|”The”)) +
log(P(“sat”|”The cat”)) +
log(P(“on”|”The cat sat”)) +
log(P(“the”|”The cat sat”)) + log(P(“the”|”The cat sat on”)) +
log(P(“mat”|”The cat sat on”)) = abc

**步骤 3：**对上述对数总和取平均值（除以总词数），并应用指数