17、自然语言处理中的TF - IDF:原理、计算与应用

自然语言处理中的TF - IDF:原理、计算与应用

1. 词频与Zipf定律

在自然语言处理中,词频(Term Frequency,TF)是一个基础概念。通过对布朗语料库(Brown Corpus)的词频统计,我们可以发现词频遵循Zipf预测的对数关系。以下是统计词频的示例代码:

from collections import Counter

# 假设word_list是语料库中的词列表
token_counts = Counter(word_list)
print(token_counts.most_common(10))

输出结果可能如下:

[('the', 69971),
 ('of', 36412),
 ('and', 28853),
 ('to', 26158),
 ('a', 23195),
 ('in', 21337),
 ('that', 10594),
 ('is', 10109),
 ('was', 9815),
 ('he', 9548)]

从这个结果可以看出,排名第一的“the”出现的频率大约是排名第二的“of”的两倍,是排名第三的“and”的三倍。对于一个足够大的语料库,按词的出现次数降序排列后,排名第一的词在语料库中出现的概率大约是排名第二的词的两倍,是排名第四的词的四倍。利用这个规律,我们可以大致判断一个词在语料库的任意文档中出现的统计概率。

2. 逆文档频率(Inverse Document Frequency,IDF)的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值