word2vec

Word2vec是一个用来产生词向量的相关模型。这些模型为浅层双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec词袋模型假设下,词的顺序是不重要的。

训练完成之后,word2vec模型可以把每个词映射到一个向量,来表示词与词之间的关系。该向量为神经网络的隐藏层[1]

Word2vec依赖skip-grams连续词袋CBOW)来建立神经词嵌入。

CBOW把一个词从词窗剔除。在CBOW下给定n词围绕着词wword2vec预测一个句子中其中一个缺漏的词c,即以几率来表示。相反地,Skip-gram给定词窗中的文本,预测当前的词

Word2vec用来建构整份文件(而分独立的词)的延伸应用已被提出[2],该延伸称为paragraph2vecdoc2vec

word2vec的实现:

https://github.com/tensorflow/tensorflow/blob/r1.1/tensorflow/examples/tutorials/word2vec/word2vec_basic.py

models.word2vec – Word2vec embeddings — gensim

参考文献

[1] Mikolov, Tomas; 等. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14].

[2] Le, Quoc; 等. Distributed Representations of Sentences and Documents. (PDF). [2016-02-18].

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值