Att-BiLSTM关系分类（2015）论文阅读笔记-CSDN博客

本文介绍了Att-BiLSTM在关系分类中的应用，通过注意力机制聚焦关键信息，解决长依赖问题。模型包括Word Embeddings、双向LSTM、注意力层和分类层。实验表明，该模型能有效利用上下文信息，提高分类性能。

Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification（Att-BiLSTM关系分类，2015）论文阅读笔记

一、背景

SVM（2010）
CNN（2014）
RNN（Zhang and Wang，2015）–长程依赖问题
SDP-LSTM（2015）–比较复杂
BLSTM（Zhang，2015）–使用了很多复杂特征

本文的贡献：
提出了基于注意力机制的BiLSTM网络用于关系分类，它可以自动聚焦于对分类有决定性影响的词，以捕捉句子中最重要的语义信息。网络只使用word vectors 和position indicators作为特征，而不使用其他外部特征和NLP系统。（position indicators，PI：< e1 >，< /e1 >，< e2 >，< /e2 >，本文将PI作为single words输入，与其他词一起经过embedding层）

二、模型

1.Word Embeddings

在这里插入图片描述
vⁱ 是one-hot向量，e_i 的维度为d^w。W^wrd在训练过程中也作为参数进行学习。

2.Bidirectional Network

本文使用LSTM的变体，即增加了一个peephole connections（Graves，2013），在传统LSTM的基础上，使三个门控不仅依赖于输入x_t 和上一时刻的隐状态h_t-1，也依赖于上一个时刻或当前时刻的记忆单元c_t-1（或c_t）

在这里插入图片描述
同时，本文使用BiLSTM来同时捕捉上文和下文的信息。然后将二者得到的隐状态作求和操作，得到最终的隐状态序列：

其中⊕代表向量的逐元素求和操作。
本文的LSTM网络的隐状态维度设置为d^w，与word embedding的维度一致。

3.Attention（创新点）

令矩阵H = [ h₁, h₂, … ，h_T ]，维度为d^w×T（T为句子长度）

H首先经非线性激活函数激活后，使用注意力机制（加权求和的软性注意力）得到更进一步的句子表示：

在这里插入图片描述
w为查询向量，维度为d^w，在训练中作为参数学习。

α为注意力分布，维度为T（句子长度），可以理解为H中的T个向量分别受关注的程度

r是经注意力机制处理后的句子表示，维度为d^w

r=Hα^T实际上是基于注意力分布对各个隐状态进行加权求和。

4.Classifying

经过一个全连接层后，送入softmax分类器：

在这里插入图片描述
5.训练设置和超参数

作者划分了800个句子作为开发集，调整超参数。

在embedding层，LSTM层，全连接层使用dropout，dropout率分别为0.3，0.3，0.5。

对网络参数添加L2正则，参数为10^-5。

使用AdaDelda训练模型，学习率为1.0，batch_size为10。

三、实验结果

在这里插入图片描述