Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths(2015)论文阅读笔记
一、背景
SVM
RNN
MV-RNN
FCM
CNN
CR-CNN
本文基于以下三点原因,提出了SDP-LSTM(基于最短依存路径的LSTM)模型用于关系分类:
①最短依存路径包含大量信息:
最短依存路径中的单词集中包含了大部分信息,噪声很少,而其他单词信息较少,且可能带来大量噪声。
②方向很重要:
由于在依存树中,两个词的方向不同,会导致其依赖关系不同,且关系类型也具有方向性,所以,将SDP划分为两个子路径,每个子路径为从一个实体到共同的祖先节点。将提取的特征沿两个子路径连接起来进行最终的分类。
③外部语言信息可帮助提升效果:
本文采用words本身,POS,WordNet上义词,以及grammatical relations between governing words and their children四种特征。
二、模型
以句子“A trillion gallons of water have been poured into an empty region of outer space”为例,下图为其依存解析树。

红线表示两个实体间的最短路径,由词a指向词b的箭头表示a being governed by b。
模型架构如图所示:

1.The Shortest Dependency Path
依存解析树天生适合于关系分类,因为它关注的是句子中的动作和主体(Socher et al,2014)。此外,实体之间的最短路径浓缩了实体关系中最具启发性的信息。并且,由两个实体的共同祖先节点分隔的子路径为关系的方向性提供了强有力的提示。两个实体有它们共同的祖先节点,这将SDP分为两个部分。我们可以用两个LSTM网络分别对两个子路径进行特征提取。
本文的依存解析树由Stanford parser生成。
2.Channels
使用4种语言特征作为4个channels,分别沿着SDP传递给LSTM网络处理:
①Word representations:使用word2vec,200维。
②Part-of-speech tags(POS):即标注words的词性(名词、动词等),使用粗粒度的POS,包含15种tag,50维。
③Grammatical relations:表示governing word和其children的依存关系。也使用粗粒度,包含19种classes(De Marneffe et al., 2006),50维。
④WordNet hypernyms:使用Altun(2006)的方法,包含41种上义词,50维。
对后三种特征的embedding采用随机初始化,并在训练过程中不断调整。由于他们的类别总数(15+19+41)远远少于Word representations的种类数,因此可以使用随机初始化策略。
embedding后,每个channel对应两个LSTM网络(两条子路径),互不干扰地进行特征提取,得到其路径上每个词的隐状态h(设置跟embedding相同的维度,即200或50维)。
3.Recurrent Neural Network with Long Short Term Memory Units
经LSTM网络处理后,maxpolling层将路径上的所有隐状态h整合(这里有疑问),对每个维度取最大值。得到一个固定维度的polling vector(与句子长度无关),将4个channel的polling vector连接,送入一个全连接层,再使用softmax分类器分类。
4.Dropout Strategies(创新点)
传统的dropout不能很好地应用于LSTM单元,因为dropout可能会损害记忆单元的记忆能力。本文提出了三种Dropout策略:
①对embedding进行Dropout
②对记忆单元进行Dropout(it,gt,ot,ct,ht)
③对倒数第二层进行Dropout(全连接层?)
实验证明,①③是有效的,②反而降低了F1值。
如果使用①,LSTM的计算变为:

5.Training Objective
采用交叉熵损失函数:

t是真实标记的one-hot向量,y是由softmax层计算出的每个类别的概率向量。
这里对LSTM层的参数W和U(计算各种门的一堆参数矩阵)设置了l2正则,而对偏置不作正则处理。
设置batch_size为10(这里暂时不清楚作者用了什么方法将变长句子组成batch),使用随机梯度下降训练模型。
三、超参数设置和实验结果
数据集:SemEval2010Task8
Word representations:200维。
POS:50维。
Grammatical relations:50维。
WordNet hypernyms:50维。
LSTM隐层维度与embedding特征维度一致。
全连接层维度:100维(这里有疑问,为什么不和关系种类数一致?)
以上参数是凭经验选择的(因为全网各搜索是不可行的)
l2正则参数:10-5
1.Dropout的影响

LSTM单元的dropout会损害模型(即使dropout率很小)。embedding的dropout使模型性能提高2.16%,倒数第二层的dropout进一步提高0.16%。
2.Channels的影响

3.与其他模型的比较

如果不使用两个子路径,而是将整个最短依存路径作为输入时,F1值为82.8%。
本文介绍了SDP-LSTM模型用于关系分类的原因及优势,包括最短依存路径的信息集中性、方向重要性和外部语言信息的利用。通过4个通道的LSTM网络处理不同特征,如词向量、词性、语法关系和WordNet上义词。模型通过最大池化整合路径信息,采用Dropout策略避免过拟合。实验表明,SDP-LSTM在关系分类任务中表现出色,优于传统方法。
论文阅读笔记&spm=1001.2101.3001.5002&articleId=117413646&d=1&t=3&u=e0c8f910dde44a8e9a0cfcfb145cd164)
812

被折叠的 条评论
为什么被折叠?



