除了准确率,评估DeepSeek模型的性能还需结合其具体应用场景(如文本生成、问答、翻译等),从以下多维度指标进行综合考量:
一、生成任务核心指标
1. 语义匹配与内容质量
-
BLEU(双语评估替补)
计算生成文本与参考文本的n-gram重叠度,广泛用于机器翻译。例如,BLEU-4通过1-4元语法的加权平均衡量翻译准确性,值越高表示译文与参考文本越接近。from nltk.translate.bleu_score import sentence_bleu reference = [['the', 'cat', 'is', 'on', 'the', 'mat']] candidate = ['the', 'cat', 'sits', 'on', 'the', 'mat'] bleu_score = sentence_bleu(reference, candidate) -
ROUGE(召回率导向评估)
基于最长公共子序列(LCS)和n-gram重叠,适用于自动摘要。例如,ROUGE-L通过LCS计算摘要与原文的语义覆盖度,ROUGE-S考虑跳跃二元词组的匹配。from rouge import Rouge rouge = Rouge() scores = rouge.get_scores(candidate_summary, reference_summary) -
BERTScore
利用BERT模型的语义嵌入计算生成文本与参考文本的


1625

被折叠的 条评论
为什么被折叠?



