TF-IDF(Term Frequency-Inverse Document Frequency)加权词袋模型是一种在信息检索和文本挖掘中广泛使用的方法,用于衡量一个词在一个文档集中的重要性。它通过结合词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)来计算词的权重,从而更好地表示文档的特征。以下是TF-IDF模型的详细介绍:
1. 词袋模型(Bag of Words, BoW)
词袋模型是最简单的文本表示方法之一。它不考虑词语顺序,只关注词语的出现次数。每篇文档被表示为一个向量,向量的每个维度对应一个词汇表中的词,值为该词在文档中的出现次数。
例子
假设有以下三个文档:
- Doc1: "I love machine learning"
- Doc2: "machine learning is great"
- Doc3: "I love learning"
词汇表(Vocabulary)可能是:["I", "love", "machine", "learning", "is", "great"]
根据词袋模型表示:
- Doc1: [1, 1, 1, 1, 0, 0]
- Doc2: [0, 0, 1, 1, 1, 1]
- Doc3: [1, 1, 0, 1, 0, 0]
2. TF-IDF加权词袋模型
TF-IDF模型在词袋模型的基础上,进一步考虑了词在整个文档集中的重要性。它由两个部分组成:
2.1 词频(Term Frequency, TF)
&

加权词袋模型&spm=1001.2101.3001.5002&articleId=139066339&d=1&t=3&u=0efb61fbb9b8414d9a628102b8d0cfc4)
1万+

被折叠的 条评论
为什么被折叠?



