写在最前面。最近对NER做了一个调研,看了一些论文,将论文中提到的NER方法汇总到博客里,此博客还会继续更新。相关论文和数据集整理可见Github。
按照我的个人理解,NER任务可以分为Encoder和Decoder两部分。前者获取输入句子的向量化表示,后者得到对每个字符的分类结果。对于大部分的NER论文,Decoder都会用到CRF,主要的创新在不同的子任务(比如中文NER的词汇增强,少标注样本以及低资源学习、重叠实体识别等)的Encoder部分。
目录
- 基本模型
-
- 1. Bidirectional LSTM-CRF Models for Sequence Tagging
- 2. A Multi-task Approach for Named Entity Recognition in Social Media Data,ACL2017
- 3. Empower Sequence Labeling with Task-Aware Neural Language Model,AAAI2018
- 4. Neural Chinese Named Entity Recognition via CNN-LSTM-CRF and Joint Training withWord Segmentation,WWW2019
- 5. CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition,NAACL2019
- 词汇增强
- 嵌套实体
- 小样本
基本模型
基本模型包括RNN-CNN based模型及其变种,也有一部分使用了多任务学习的方法,图神经网络在近几年也开始出现在相关NER任务里,主要用于Flat NER的任务。对于小样本或者低资源没有特定的解决方案。
1. Bidirectional LSTM-CRF Models for Sequence Tagging

BiLSTM+CRF,没有什么好描述的,不过却奠定了NER的基调。
2. A Multi-task Approach for Named Entity Recognition in Social Media Data,ACL2017
采用多任务学习的解决方案:次要任务实体分割;主要任务实体识别。整个模型分为三部分:feature representation, model description, and sequential inference。
使用了三种不同的特征作为模型的输入: character, word(预训练的词向量+词性标注), and lexicons(专业词典)。这三种不同的输入分别使用CNN,LSTM和Dense进行提取。
整个模型表示为:

首先,系统将句子嵌入到高维空间中,使用CNN、BLSTM和Dense编码器提取特征。然后,它将每个编码器的结果向量串联起来并执行多任务。左上方的单节点层表示分割(红色),右上方的三节点层表示分类(蓝色)。最后,CRF分类器使用公共Dense层的权重来执行序列标注。
其中的CNN和BiLSTM分别如下:

3. Empower Sequence Labeling with Task-Aware Neural Language Model,AAAI2018
依然是多任务的,本文的多任务是语言模型以及NER。在character level LSTM之上加入了一个highway layer,用来将LSTM产生的字符表示映射到不同的表示空间,这样语言模型和序列标注模型就可以共享character level LSTM。

字符级LSTM只会在单词边界处对下一个单词进行预测,因此在图中,输出到下highway的都是 c i , _ c_{i,\_} ci,_这种表示单词边界的向量。对于BLSTM,前向和后向分别有两种不同的结果,分别表示为 f i , r i f_i, r_i fi,ri。Highway的本质其实就是门操作,论文中给出了如下公式:

图中提到的蓝色和灰色的Highway的输出被用于语言模型(Language Model),而黄色和粉丝的Highway的输出和单词的embedding结合起来被输入到单词级别的BLSTM中,最终过一个CRF进行词性标注。
这里要提及一下LM,它是描述序列生成的一组模型,当前单词的概率与之前所有的单词相关:

而在本文的语言模型中的输入是 c i , _ c_{i,\

这篇博客总结了NER(命名实体识别)的研究进展,重点关注Encoder-Decoder架构和词汇增强技术。文章讨论了基本模型如BiLSTM-CRF,并介绍了多任务学习的应用,如在社会媒体数据中的NER。此外,还探讨了任务感知神经语言模型、CNN-LSTM-CRF结合词分词的联合训练方法以及卷积注意力网络。对于词汇增强,提到了FLAT模型如何利用平展的词典结构改进Transformer。同时,博客还涵盖了嵌套实体识别和小样本学习的挑战。

1184

被折叠的 条评论
为什么被折叠?



