Att-BiLSTM关系分类(2015)论文阅读笔记

本文介绍了Att-BiLSTM在关系分类中的应用,通过注意力机制聚焦关键信息,解决长依赖问题。模型包括Word Embeddings、双向LSTM、注意力层和分类层。实验表明,该模型能有效利用上下文信息,提高分类性能。

Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification(Att-BiLSTM关系分类,2015)论文阅读笔记

一、背景

SVM(2010)
CNN(2014)
RNN(Zhang and Wang,2015)–长程依赖问题
SDP-LSTM(2015)–比较复杂
BLSTM(Zhang,2015)–使用了很多复杂特征

本文的贡献:
提出了基于注意力机制的BiLSTM网络用于关系分类,它可以自动聚焦于对分类有决定性影响的词,以捕捉句子中最重要的语义信息。网络只使用word vectors 和position indicators作为特征,而不使用其他外部特征和NLP系统。(position indicators,PI:< e1 >,< /e1 >,< e2 >,< /e2 >,本文将PI作为single words输入,与其他词一起经过embedding层)

二、模型

1.Word Embeddings

在这里插入图片描述
vi 是one-hot向量,ei 的维度为dw。Wwrd在训练过程中也作为参数进行学习。

2.Bidirectional Network

本文使用LSTM的变体,即增加了一个peephole connections(Graves,2013),在传统LSTM的基础上,使三个门控不仅依赖于输入xt 和上一时刻的隐状态ht-1,也依赖于上一个时刻或当前时刻的记忆单元ct-1(或ct

在这里插入图片描述
同时,本文使用BiLSTM来同时捕捉上文和下文的信息。然后将二者得到的隐状态作求和操作,得到最终的隐状态序列:
在这里插入图片描述
其中⊕代表向量的逐元素求和操作。
本文的LSTM网络的隐状态维度设置为dw,与word embedding的维度一致。

3.Attention(创新点)

令矩阵H = [ h1, h2, … ,hT ],维度为dw×T(T为句子长度)

H首先经非线性激活函数激活后,使用注意力机制(加权求和的软性注意力)得到更进一步的句子表示:

在这里插入图片描述
w为查询向量,维度为dw,在训练中作为参数学习。

α为注意力分布,维度为T(句子长度),可以理解为H中的T个向量分别受关注的程度

r是经注意力机制处理后的句子表示,维度为dw

r=HαT实际上是基于注意力分布对各个隐状态进行加权求和。

4.Classifying

经过一个全连接层后,送入softmax分类器:

在这里插入图片描述
5.训练设置和超参数

作者划分了800个句子作为开发集,调整超参数。

在embedding层,LSTM层,全连接层使用dropout,dropout率分别为0.3,0.3,0.5。

对网络参数添加L2正则,参数为10-5

使用AdaDelda训练模型,学习率为1.0,batch_size为10。

三、实验结果

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值