命名实体识别方法-基本模型,词汇增强,嵌套实体,少样本学习

这篇博客总结了NER(命名实体识别)的研究进展,重点关注Encoder-Decoder架构和词汇增强技术。文章讨论了基本模型如BiLSTM-CRF,并介绍了多任务学习的应用,如在社会媒体数据中的NER。此外,还探讨了任务感知神经语言模型、CNN-LSTM-CRF结合词分词的联合训练方法以及卷积注意力网络。对于词汇增强,提到了FLAT模型如何利用平展的词典结构改进Transformer。同时,博客还涵盖了嵌套实体识别和小样本学习的挑战。

写在最前面。最近对NER做了一个调研,看了一些论文,将论文中提到的NER方法汇总到博客里,此博客还会继续更新。相关论文和数据集整理可见Github
按照我的个人理解,NER任务可以分为Encoder和Decoder两部分。前者获取输入句子的向量化表示,后者得到对每个字符的分类结果。对于大部分的NER论文,Decoder都会用到CRF,主要的创新在不同的子任务(比如中文NER的词汇增强,少标注样本以及低资源学习、重叠实体识别等)的Encoder部分。

基本模型

基本模型包括RNN-CNN based模型及其变种,也有一部分使用了多任务学习的方法,图神经网络在近几年也开始出现在相关NER任务里,主要用于Flat NER的任务。对于小样本或者低资源没有特定的解决方案。

1. Bidirectional LSTM-CRF Models for Sequence Tagging

在这里插入图片描述
BiLSTM+CRF,没有什么好描述的,不过却奠定了NER的基调。

2. A Multi-task Approach for Named Entity Recognition in Social Media Data,ACL2017

采用多任务学习的解决方案:次要任务实体分割;主要任务实体识别。整个模型分为三部分:feature representation, model description, and sequential inference。
使用了三种不同的特征作为模型的输入: character, word(预训练的词向量+词性标注), and lexicons(专业词典)。这三种不同的输入分别使用CNN,LSTM和Dense进行提取。
整个模型表示为:
在这里插入图片描述
首先,系统将句子嵌入到高维空间中,使用CNN、BLSTM和Dense编码器提取特征。然后,它将每个编码器的结果向量串联起来并执行多任务。左上方的单节点层表示分割(红色),右上方的三节点层表示分类(蓝色)。最后,CRF分类器使用公共Dense层的权重来执行序列标注。
其中的CNN和BiLSTM分别如下:
在这里插入图片描述

3. Empower Sequence Labeling with Task-Aware Neural Language Model,AAAI2018

依然是多任务的,本文的多任务是语言模型以及NER。在character level LSTM之上加入了一个highway layer,用来将LSTM产生的字符表示映射到不同的表示空间,这样语言模型和序列标注模型就可以共享character level LSTM。
在这里插入图片描述
字符级LSTM只会在单词边界处对下一个单词进行预测,因此在图中,输出到下highway的都是 c i , _ c_{i,\_} ci,_这种表示单词边界的向量。对于BLSTM,前向和后向分别有两种不同的结果,分别表示为 f i , r i f_i, r_i fi,ri。Highway的本质其实就是门操作,论文中给出了如下公式:
在这里插入图片描述
图中提到的蓝色和灰色的Highway的输出被用于语言模型(Language Model),而黄色和粉丝的Highway的输出和单词的embedding结合起来被输入到单词级别的BLSTM中,最终过一个CRF进行词性标注。
这里要提及一下LM,它是描述序列生成的一组模型,当前单词的概率与之前所有的单词相关:
在这里插入图片描述
而在本文的语言模型中的输入是 c i , _ c_{i,\

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五月的echo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值