ViLBERT (short for Vision-and-Language BERT)是一个Task-Agnostic(无特定任务的)的多模态图文预训练模型。
论文链接: link.
首先从结构上来说。

他是一个双流的结构。这一点跟LXMERT十分的相似。本文使用faster-rcnn 来提取图片的区域特征,大多数多模态预训练模型都是使用faster-rcnn 来提取图片特征。如uniter,unimo等等。本文认为图片提取完特征是具备高层的语义信息,此时(刚embed完)文本不具备高层语意信息。所以文本是需要先通过几个transformer 模块之后再与图片特征进行交互。其结构上的创新是这个Co-Attentional Transformer Layers.

这个layer结构也十分简单容易理解。self-attention中的q,k,v都是来自自己的输入,只不过只不过输入通过不同的线性网络得到q,k,v。 该结构中只不过是图片k,v去与文本的q做self- attention计算,文本的k,v去与图片的q做self- attention计算。简单说就是图片流中的k,v 和文本流的q 输入到文本流,文本流中的k,v 和图片流的q 输入到图片流。
其图片上结构也非常清晰。文本流 [cls]word…[sep] 先与bert的处理是一样的,通过几个标准的transformer block 后与图片流。[i


2205

被折叠的 条评论
为什么被折叠?



