基于深度学习的短文本相似度学习与行业测评

文本相似度计算在NLP中广泛应用,短文本计算面临上下文信息有限、口语化和语序敏感等问题。主流方法包括word2vec、BERT等预训练模型,以及监督学习的Siamese网络、交互式模型。在无监督学习中,BERT-Flow改进了BERT的语义空间不均匀问题。业务实践中,使用Siamese CNN和预训练模型如Xbert进行召回和排序,通过ASoftmax等归一化方式提升语义表征效果。

 文本相似度计算作为NLP的热点研究方向之一,在搜索推荐、智能客服、闲聊等领域得到的广泛的应用。在不同的应用领域,也存在着一定的差异,例如在搜索领域大多是计算query与document的相似度;而在智能客服、聊天领域更注重的是query与query之间的匹配,即短文本之间的相似度计算。

不同的文本长度,相似度的计算方案也存在差异,长文本匹配更多注重文本的关键词或者主题的匹配,业界使用的较多的算法如:TF-IDF、LSA、LDA;而短文本匹配更多的是句子整体的语义一致性,业界较为主流的算法有:word2vec、esim、abcnn、bert等深度模型。

相比于长文本的相似度计算,短文本的相似度计算存在更大的挑战。其一,短文本可以利用的上下文信息有限,语义刻画不够全面;其二,短文本通常情况下,口语化程度更高,存在缺省的可能性更大;第三,短文本更注重文本整体语义的匹配,对文本的语序、句式等更为敏感。

query1

query2

我要打给你

我要打你

你叫什么

你叫我什么

我叫小布

我不叫小布

你有男票吗

你是单身狗吗

你真搞笑

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值