本系列分为四部分,这篇文章是本系列最后一篇,在公众号上有写过:word embedding系列(四):标签embedding(Wsabie和TagSpace)),现在搬到CSDN上~
欢迎关注我的公众号,微信搜 algorithm_Tian 或者扫下面的二维码~
现在保持每周更新的频率,内容都是机器学习相关内容和读一些论文的笔记,欢迎一起讨论学习~

本篇介绍两个自动标注算法Wsabie和基于它的TagSpace,这两个算法本质上是分类,副产物是类标签的embedding。
1. Wsabie
论文名:WSABIE: Scaling Up To Large Vocabulary Image Annotation (http://www.thespermwhale.com /jaseweston/papers/wsabie-ijcai.pdf)

对于 WSABIE 来说,打标签的过程,就是计算所有标签与当前对象的相似性,并取出相似性最高的标签作为结果。
由于对象的 feature 和标签是两种不同的东西,为了计算相似性,WSABIE 将它们映射到 同一个向量空间:
对象I的特征向量x映射到公共空间,其中V是映射矩阵;
标签转换到公共空间,矩阵W第i列是第i个标签的embedding。
标签与对象之间的相似度定义为:

1.1损失函数
模型的优化目标,是让对应标签与对象有较高的相似度。于是损失函数写为:

其中
![]()
表示相似度大于正确标签y的标签个数,I是示性函数,即满足括号中条件为1不满足则为0。
是rank的误差,
,在论文中αj=1/j。
1.2损失函数的改写与近似
为了后续的求解方便,对原始的公式做一个改写:

本文详细介绍了自动标注算法Wsabie和TagSpace,它们用于计算对象与标签的相似性。Wsabie通过将对象和标签映射到同一向量空间并优化损失函数实现分类。TagSpace则基于Wsabie,适用于长文本标签,采用文本CNN结构。两者都使用了hinge loss近似0/1损失,并进行了梯度优化。
:标签embedding(Wsabie和TagSpace))&spm=1001.2101.3001.5002&articleId=99018968&d=1&t=3&u=6c3996b3c8074a2c91b583d59740efad)
1583

被折叠的 条评论
为什么被折叠?



