Word2vec是一个用来产生词向量的相关模型。这些模型为浅层双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。
训练完成之后,word2vec模型可以把每个词映射到一个向量,来表示词与词之间的关系。该向量为神经网络的隐藏层[1]。
Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。
CBOW把一个词从词窗剔除。在CBOW下给定n词围绕着词w,word2vec预测一个句子中其中一个缺漏的词c,即以几率
来表示。相反地,Skip-gram给定词窗中的文本,预测当前的词
。
Word2vec用来建构整份文件(而分独立的词)的延伸应用已被提出[2],该延伸称为paragraph2vec或doc2vec。
word2vec的实现:
models.word2vec – Word2vec embeddings — gensim
参考文献:
[1] Mikolov, Tomas; 等. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14].
[2] Le, Quoc; 等. Distributed Representations of Sentences and Documents. (PDF). [2016-02-18].

1193

被折叠的 条评论
为什么被折叠?



