论文:A Deep Hashing Technique for Remote Sensing Image-Sound Retrieval
跨模态图像语音哈希检索
关于网络结构
使用了三元组网络,对于anchor图片使用VGG16提取deep feature,对于pos和neg语音使用MFCC提取deep feature。两种网络都增加了全连接层+sigmoid,以及全连接层+tanh的结构来获取hash-like特征。(hash的提取使用sign函数)

关于负样本采样
通过距离公式计算难语音样本集,在集合中,随机取样neg。

关于损失函数
由三部分构成,一部分是hash-like triplets,一部分是hash-like与hash的距离,一部分是deep feature的triplet,三部分加权和构成损失函数。
使用hash特征近似化后,取hash-like值计算的triplet loss,用来使正样本对靠近,负样本对远离。

用来使得hash-like与hash值之间的靠的更近,因为二值化不好求梯度,使用的别的处理方法(公式暂且不列,原论文有具体实现方法)。


1万+

被折叠的 条评论
为什么被折叠?



