主要把一些实验结果说一下:

DSSM 作为文本匹配的开山鼻祖,想法也很简单,就是将query 和doc拉到同一维度,然后计算余弦相似度,网络也是非常简单,所以只获得了78.53的准确率,但是他的训练和测试时间很短,也有着一些应用。ESIM是在DSSM上进行改进,他采用了RNN提取特征,并将句子进行对齐,设计组合特征,性能得到了较大的提高,速度也是比较快的;RE2设计循环网络,每次都将embedding与当前层的输出进行拼接作为下一层的输入,后面仍然采用了和ESIM相同的对齐机制,因此获得了比ESIM高的准确率,但是在速度上有一些下降;而基于预训练模型的BERT虽然在准确率上有了大幅度的提高,但是它在训练和推理上的速度都比较慢,还浪费了大量的训练资源,因此有一些方法采用模型压缩的方法对BERT进行压缩,如知识蒸馏,剪枝,量化等,ALBERT采用矩阵分解和跨层参数共享机制,虽然减少了训练时间,但是在推理上没有提升,而DistilBERT通过知识蒸馏将模型由12层变为6层,在推理上的速度提升了1倍,并且保证了97%的精度,这和非BERT方法如ESIM和RE2有着不分上下的精度,这真的值得用BERT来做吗?
总体来讲,ESIM 和RE2的表现相当不错,训练网络的时间短,并且性能能够达到中等偏上水平。

3556

被折叠的 条评论
为什么被折叠?



