17、自然语言处理中的TF - IDF：原理、计算与应用

最新推荐文章于 2026-06-22 19:43:14 发布

原创最新推荐文章于 2026-06-22 19:43:14 发布 · 72 阅读

0 GEO检测

标签

#自然语言处理 # TF-IDF # 词频

收录于

NLP实战：从理论到应用专栏收录该内容

75 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言处理中的TF - IDF：原理、计算与应用

1. 词频与Zipf定律

在自然语言处理中，词频（Term Frequency，TF）是一个基础概念。通过对布朗语料库（Brown Corpus）的词频统计，我们可以发现词频遵循Zipf预测的对数关系。以下是统计词频的示例代码：

from collections import Counter

# 假设word_list是语料库中的词列表
token_counts = Counter(word_list)
print(token_counts.most_common(10))

输出结果可能如下：

[('the', 69971),
 ('of', 36412),
 ('and', 28853),
 ('to', 26158),
 ('a', 23195),
 ('in', 21337),
 ('that', 10594),
 ('is', 10109),
 ('was', 9815),
 ('he', 9548)]

从这个结果可以看出，排名第一的“the”出现的频率大约是排名第二的“of”的两倍，是排名第三的“and”的三倍。对于一个足够大的语料库，按词的出现次数降序排列后，排名第一的词在语料库中出现的概率大约是排名第二的词的两倍，是排名第四的词的四倍。利用这个规律，我们可以大致判断一个词在语料库的任意文档中出现的统计概率。