命名实体识别方法-基本模型，词汇增强，嵌套实体，少样本学习

最新推荐文章于 2026-02-12 19:41:00 发布

原创

最新推荐文章于 2026-02-12 19:41:00 发布 · 3.2k 阅读

标签

#命名实体识别 #自然语言处理

这篇博客总结了NER（命名实体识别）的研究进展，重点关注Encoder-Decoder架构和词汇增强技术。文章讨论了基本模型如BiLSTM-CRF，并介绍了多任务学习的应用，如在社会媒体数据中的NER。此外，还探讨了任务感知神经语言模型、CNN-LSTM-CRF结合词分词的联合训练方法以及卷积注意力网络。对于词汇增强，提到了FLAT模型如何利用平展的词典结构改进Transformer。同时，博客还涵盖了嵌套实体识别和小样本学习的挑战。

写在最前面。最近对NER做了一个调研，看了一些论文，将论文中提到的NER方法汇总到博客里，此博客还会继续更新。相关论文和数据集整理可见Github。
按照我的个人理解，NER任务可以分为Encoder和Decoder两部分。前者获取输入句子的向量化表示，后者得到对每个字符的分类结果。对于大部分的NER论文，Decoder都会用到CRF，主要的创新在不同的子任务（比如中文NER的词汇增强，少标注样本以及低资源学习、重叠实体识别等）的Encoder部分。

基本模型

基本模型包括RNN-CNN based模型及其变种，也有一部分使用了多任务学习的方法，图神经网络在近几年也开始出现在相关NER任务里，主要用于Flat NER的任务。对于小样本或者低资源没有特定的解决方案。

1. Bidirectional LSTM-CRF Models for Sequence Tagging

在这里插入图片描述
BiLSTM+CRF，没有什么好描述的，不过却奠定了NER的基调。

2. A Multi-task Approach for Named Entity Recognition in Social Media Data，ACL2017

采用多任务学习的解决方案：次要任务实体分割；主要任务实体识别。整个模型分为三部分：feature representation, model description, and sequential inference。
使用了三种不同的特征作为模型的输入: character, word（预训练的词向量+词性标注）, and lexicons(专业词典)。这三种不同的输入分别使用CNN，LSTM和Dense进行提取。
整个模型表示为：
在这里插入图片描述
首先，系统将句子嵌入到高维空间中，使用CNN、BLSTM和Dense编码器提取特征。然后，它将每个编码器的结果向量串联起来并执行多任务。左上方的单节点层表示分割(红色)，右上方的三节点层表示分类(蓝色)。最后，CRF分类器使用公共Dense层的权重来执行序列标注。
其中的CNN和BiLSTM分别如下：
在这里插入图片描述

3. Empower Sequence Labeling with Task-Aware Neural Language Model，AAAI2018

依然是多任务的，本文的多任务是语言模型以及NER。在character level LSTM之上加入了一个highway layer，用来将LSTM产生的字符表示映射到不同的表示空间，这样语言模型和序列标注模型就可以共享character level LSTM。
在这里插入图片描述
字符级LSTM只会在单词边界处对下一个单词进行预测，因此在图中，输出到下highway的都是 $_ c_{i,\_}$ 这种表示单词边界的向量。对于BLSTM，前向和后向分别有两种不同的结果，分别表示为 $f_i, r_i$ 。Highway的本质其实就是门操作，论文中给出了如下公式：
在这里插入图片描述
图中提到的蓝色和灰色的Highway的输出被用于语言模型（Language Model），而黄色和粉丝的Highway的输出和单词的embedding结合起来被输入到单词级别的BLSTM中，最终过一个CRF进行词性标注。
这里要提及一下LM，它是描述序列生成的一组模型，当前单词的概率与之前所有的单词相关：
在这里插入图片描述
而在本文的语言模型中的输入是 $_ c_{i,\$