【图神经网络基础】认识数据集特征的编码方式--TF-IDF（Term Frequency-Inverse Document Frequency）加权词袋模型

最新推荐文章于 2026-04-26 14:49:02 发布

原创

最新推荐文章于 2026-04-26 14:49:02 发布 · 1.1k 阅读

·

29

·

标签

#算法 #深度学习 #人工智能 #python #神经网络

TF-IDF（Term Frequency-Inverse Document Frequency）加权词袋模型是一种在信息检索和文本挖掘中广泛使用的方法，用于衡量一个词在一个文档集中的重要性。它通过结合词频（Term Frequency, TF）和逆文档频率（Inverse Document Frequency, IDF）来计算词的权重，从而更好地表示文档的特征。以下是TF-IDF模型的详细介绍：

1. 词袋模型（Bag of Words, BoW）

词袋模型是最简单的文本表示方法之一。它不考虑词语顺序，只关注词语的出现次数。每篇文档被表示为一个向量，向量的每个维度对应一个词汇表中的词，值为该词在文档中的出现次数。

例子

假设有以下三个文档：

Doc1: "I love machine learning"
Doc2: "machine learning is great"
Doc3: "I love learning"

词汇表（Vocabulary）可能是：["I", "love", "machine", "learning", "is", "great"]

根据词袋模型表示：

Doc1: [1, 1, 1, 1, 0, 0]
Doc2: [0, 0, 1, 1, 1, 1]
Doc3: [1, 1, 0, 1, 0, 0]

2. TF-IDF加权词袋模型

TF-IDF模型在词袋模型的基础上，进一步考虑了词在整个文档集中的重要性。它由两个部分组成：

2.1 词频（Term Frequency, TF）

&

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。