12、词嵌入技术全解析：从基础到语言模型

最新推荐文章于 2025-12-20 10:02:15 发布

原创最新推荐文章于 2025-12-20 10:02:15 发布 · 83 阅读

·

0

·

标签

#词嵌入 # Word2Vec # GloVe

深度学习实战指南专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

词嵌入技术全解析：从基础到语言模型

一、句子和段落嵌入

句子和段落嵌入是将文本转换为向量表示的重要技术，在自然语言处理中有着广泛的应用。

简单平均法
最简单且有效的生成句子和段落嵌入的方法是对其组成单词的词向量求平均。这可以作为一个基线方法，在后续尝试其他复杂方法时进行对比。
任务优化法
将句子或段落视为单词序列，用标准词向量表示每个单词，再将词向量序列作为输入，训练特定任务的网络。从网络分类层前的较后层提取的向量，通常能为序列提供良好的向量表示，但这种表示往往具有很强的任务特异性，作为通用向量表示的用途有限。
Skip - Thought Vectors
Kiros等人提出利用书籍文本的连续性构建编码器 - 解码器模型，该模型经过训练，能根据给定句子预测周围句子。由编码器 - 解码器网络构建的单词序列的向量表示通常被称为“思想向量”。由于其工作原理与skip - gram类似，即根据一个单词预测周围单词，这些句子向量被称为Skip - Thought Vectors。该项目最初发布了基于Theano的模型，后来谷歌研究团队用TensorFlow重新实现。Skip - Thoughts模型为每个句子输出大小为(2048)的向量。使用该模型不太直观，不过其GitHub仓库中的README.md文件提供了使用说明。
Google Universal Sentence Encoder

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。