word embedding系列（四）：标签embedding（Wsabie和TagSpace））

最新推荐文章于 2025-11-15 08:37:29 发布

原创

最新推荐文章于 2025-11-15 08:37:29 发布 · 2.2k 阅读

·

1

·

标签

#WASABIE #TAGSPACE #NLP #词向量 #打标签

本文详细介绍了自动标注算法Wsabie和TagSpace，它们用于计算对象与标签的相似性。Wsabie通过将对象和标签映射到同一向量空间并优化损失函数实现分类。TagSpace则基于Wsabie，适用于长文本标签，采用文本CNN结构。两者都使用了hinge loss近似0/1损失，并进行了梯度优化。

本系列分为四部分，这篇文章是本系列最后一篇，在公众号上有写过：word embedding系列（四）：标签embedding（Wsabie和TagSpace）），现在搬到CSDN上~

欢迎关注我的公众号，微信搜 algorithm_Tian 或者扫下面的二维码~

现在保持每周更新的频率，内容都是机器学习相关内容和读一些论文的笔记，欢迎一起讨论学习~

本篇介绍两个自动标注算法Wsabie和基于它的TagSpace，这两个算法本质上是分类，副产物是类标签的embedding。

1.1损失函数

1.2损失函数的改写与近似

1.3 梯度求解

1.4 进一步通过近似优化性能

1.5 算法流程

2.1 网络结构

2.2 文本CNN的基本结构

2.3 优化目标

1. Wsabie

论文名：WSABIE: Scaling Up To Large Vocabulary Image Annotation (http://www.thespermwhale.com /jaseweston/papers/wsabie-ijcai.pdf)

对于 WSABIE 来说，打标签的过程，就是计算所有标签与当前对象的相似性，并取出相似性最高的标签作为结果。

由于对象的 feature 和标签是两种不同的东西，为了计算相似性，WSABIE 将它们映射到 同一个向量空间：

对象I的特征向量x映射到公共空间，其中V是映射矩阵；

标签转换到公共空间，矩阵W第i列是第i个标签的embedding。

标签与对象之间的相似度定义为：

1.1损失函数

模型的优化目标，是让对应标签与对象有较高的相似度。于是损失函数写为：

其中

表示相似度大于正确标签y的标签个数，I是示性函数，即满足括号中条件为1不满足则为0。

是rank的误差，，在论文中αj=1/j。

1.2损失函数的改写与近似

为了后续的求解方便，对原始的公式做一个改写：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。