使用 Gensim 来训练 word2vec 词向量模型的参数设置
我们可以使用一些参数设置来控制训练的速度和质量。
一、最小频次 min_count
min_count 用来修剪内部的词表。
比如在一个 10 亿词级别的语料中,如果一个词只出现了一两次,那这个词不是错字就是垃圾~。
再说了,出现次数太少,我们也没有足够的数据来训练出该词的有意义的词向量,所以最好的做法就是:剔除。
# 准备语料
from gensim.test.utils import datapath
from gensim import utils
import gensim.models
class MyCorpus(object):
"


2901

被折叠的 条评论
为什么被折叠?



