自然语言处理中的TF - IDF:原理、计算与应用
1. 词频与Zipf定律
在自然语言处理中,词频(Term Frequency,TF)是一个基础概念。通过对布朗语料库(Brown Corpus)的词频统计,我们可以发现词频遵循Zipf预测的对数关系。以下是统计词频的示例代码:
from collections import Counter
# 假设word_list是语料库中的词列表
token_counts = Counter(word_list)
print(token_counts.most_common(10))
输出结果可能如下:
[('the', 69971),
('of', 36412),
('and', 28853),
('to', 26158),
('a', 23195),
('in', 21337),
('that', 10594),
('is', 10109),
('was', 9815),
('he', 9548)]
从这个结果可以看出,排名第一的“the”出现的频率大约是排名第二的“of”的两倍,是排名第三的“and”的三倍。对于一个足够大的语料库,按词的出现次数降序排列后,排名第一的词在语料库中出现的概率大约是排名第二的词的两倍,是排名第四的词的四倍。利用这个规律,我们可以大致判断一个词在语料库的任意文档中出现的统计概率。
超级会员免费看
订阅专栏 解锁全文

1225

被折叠的 条评论
为什么被折叠?



