【图神经网络基础】认识数据集特征的编码方式--TF-IDF(Term Frequency-Inverse Document Frequency)加权词袋模型

        TF-IDF(Term Frequency-Inverse Document Frequency)加权词袋模型是一种在信息检索和文本挖掘中广泛使用的方法,用于衡量一个词在一个文档集中的重要性。它通过结合词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)来计算词的权重,从而更好地表示文档的特征。以下是TF-IDF模型的详细介绍:

1. 词袋模型(Bag of Words, BoW)

        词袋模型是最简单的文本表示方法之一。它不考虑词语顺序,只关注词语的出现次数。每篇文档被表示为一个向量,向量的每个维度对应一个词汇表中的词,值为该词在文档中的出现次数。

例子

假设有以下三个文档:

  • Doc1: "I love machine learning"
  • Doc2: "machine learning is great"
  • Doc3: "I love learning"

词汇表(Vocabulary)可能是:["I", "love", "machine", "learning", "is", "great"]

根据词袋模型表示:

  • Doc1: [1, 1, 1, 1, 0, 0]
  • Doc2: [0, 0, 1, 1, 1, 1]
  • Doc3: [1, 1, 0, 1, 0, 0]

2. TF-IDF加权词袋模型

        TF-IDF模型在词袋模型的基础上,进一步考虑了词在整个文档集中的重要性。它由两个部分组成:

2.1 词频(Term Frequency, TF)

   &

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值