论文阅读 seq2seq模型的copy机制

最新推荐文章于 2026-05-02 07:21:51 发布

原创

最新推荐文章于 2026-05-02 07:21:51 发布 · 9.7k 阅读

标签

#Pointer Network #NLP

这篇博客主要介绍了如何在seq2seq学习中引入copy机制，以解决OOV问题。CopyNet结合了生成和复制两种方式，通过attention机制中的词表和隐藏状态进行建模。Pointer Softmax Network进一步解决了复制或生成以及复制位置的问题，用一个参数来决定point或generate，并使用location softmax确定复制位置。Pointer Network则预测输出对应输入的哪个词。

copy net 和 pointer softmax network都是在ACL 2016上提出的，目的是为了解决OOV的问题，本篇主要是想借此总结一下copy机制的原理。

论文阅读

论文阅读

Incorporating Copying Mechanism in Sequence-to-Sequence Learning

Jiatao Gu, Zhengdong Lu
The University of Hong Kong & Huawei Noah’s Ark Lab
ACL 2016

这篇提出了copynet的思路，同时结合了generative和copy两种方式，对OOV词采用直接copy的方式。attention中包含了两个部分，第一个部分是词表，用one hot向量表示的，第二个部分是encoder的隐藏状态，即输入的句子，之所以用隐藏状态是因为其包含有位置信息，这个对生成很重要。建模是通过两者的叠加，例子中就是Prob(“Jebara”) = Prob(“Jebara”, g) + Prob(“Jebara”, c)。

这里写图片描述

p(yt|st,yt−1,ct,M)=p(yt,c|st,yt−1,ct,M)+p(yt,g|st,yt−1,ct,M) p ( y t | s t , y t − 1 , c t , M ) = p ( y t , c | s t , y t − 1 , c t , M ) + p ( y t , g | s t , y t − 1 , c t , M ) ${p(y_t|s_t, y_{t−1}, c_t, M) = p(y_t, c|s_t, y_{t−1}, c_t, M) + p(y_t, g|s_t, y_{t−1}, c_t, M)}$

M是输入隐藏层状态的集合， ${c_t}$ 是attention score， ${s_t}$ 是输出的隐藏状态，g代表生成，c代表复制。