Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification(Att-BiLSTM关系分类,2015)论文阅读笔记
一、背景
SVM(2010)
CNN(2014)
RNN(Zhang and Wang,2015)–长程依赖问题
SDP-LSTM(2015)–比较复杂
BLSTM(Zhang,2015)–使用了很多复杂特征
本文的贡献:
提出了基于注意力机制的BiLSTM网络用于关系分类,它可以自动聚焦于对分类有决定性影响的词,以捕捉句子中最重要的语义信息。网络只使用word vectors 和position indicators作为特征,而不使用其他外部特征和NLP系统。(position indicators,PI:< e1 >,< /e1 >,< e2 >,< /e2 >,本文将PI作为single words输入,与其他词一起经过embedding层)
二、模型
1.Word Embeddings

vi 是one-hot向量,ei 的维度为dw。Wwrd在训练过程中也作为参数进行学习。
2.Bidirectional Network
本文使用LSTM的变体,即增加了一个peephole connections(Graves,2013),在传统LSTM的基础上,使三个门控不仅依赖于输入xt 和上一时刻的隐状态ht-1,也依赖于上一个时刻或当前时刻的记忆单元ct-1(或ct)

同时,本文使用BiLSTM来同时捕捉上文和下文的信息。然后将二者得到的隐状态作求和操作,得到最终的隐状态序列:

其中⊕代表向量的逐元素求和操作。
本文的LSTM网络的隐状态维度设置为dw,与word embedding的维度一致。
3.Attention(创新点)
令矩阵H = [ h1, h2, … ,hT ],维度为dw×T(T为句子长度)
H首先经非线性激活函数激活后,使用注意力机制(加权求和的软性注意力)得到更进一步的句子表示:

w为查询向量,维度为dw,在训练中作为参数学习。
α为注意力分布,维度为T(句子长度),可以理解为H中的T个向量分别受关注的程度
r是经注意力机制处理后的句子表示,维度为dw
r=HαT实际上是基于注意力分布对各个隐状态进行加权求和。
4.Classifying
经过一个全连接层后,送入softmax分类器:

5.训练设置和超参数
作者划分了800个句子作为开发集,调整超参数。
在embedding层,LSTM层,全连接层使用dropout,dropout率分别为0.3,0.3,0.5。
对网络参数添加L2正则,参数为10-5。
使用AdaDelda训练模型,学习率为1.0,batch_size为10。
三、实验结果

本文介绍了Att-BiLSTM在关系分类中的应用,通过注意力机制聚焦关键信息,解决长依赖问题。模型包括Word Embeddings、双向LSTM、注意力层和分类层。实验表明,该模型能有效利用上下文信息,提高分类性能。
论文阅读笔记&spm=1001.2101.3001.5002&articleId=117960044&d=1&t=3&u=426fb21ac61e41f3b5bec96c3057694e)

被折叠的 条评论
为什么被折叠?



