Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding

最新推荐文章于 2024-12-27 04:32:41 发布

原创

最新推荐文章于 2024-12-27 04:32:41 发布 · 971 阅读

标签

#BERT #NLP

BERT是一种新的语言表达模型，采用Transformer的双向编码表示，通过预训练深度双向表示，适用于多种自然语言处理任务，包括问答系统和语言推理。BERT在多项任务中表现出色，如GLUE、SQuAD等，超越了当前的最佳模型。

Abstract

我们介绍了一种语言表达模型称为BERT，也就是Transformer的双边编码表示。与当前语言表达模型不同（Peters et al., 2018a; Radford et al., 2018），BERT设计通过考虑所有层左右上下文对为标注过的文本进行深度双边表达的预训练。因此，预训练BERT模型可以通过只增加一个额外的输出层进行finetuned，从而在很多任务中得到SOTA模型，例如问答系统与语言推理，无需进行针对特定任务的网络结构优化。

BERT概念简单但经验丰富。它在11中自然语言处理任务上取得了SOTA的成绩，包括将GLUE得分推高到80.5%（有7.7%的绝对提升），将MultiNLI准确率提升到86.7%（4.6%绝对提升），将SQuADv1.1问答测试F1提升到93.2（1.5个点绝对优化），SQuADv2.0测试F1到83.1（5.1个点绝对优化）。

1、Introduction

预训练语言模型证明在改进许多自然语言处理任务上都有效（Dai and Le, 2015; Peters et al.,2018a; Radford et al., 2018; Howard and Ruder,2018）。这些包括句子级别的任务例如自然语言推理（Bowman et al., 2015;Williams et al., 2018）与释意（Dolan and Brockett, 2005），这些任务意在通过整体分析预测句子间的关系，与指令级别任务，如命名实体识别和问题回答，其中需要模型在指令级别生成细粒度的输出（Tjong Kim Sang and De Meulder, 2003; Rajpurkar et al., 2016）。

对于下游任务有两种现有策略使用预存了预先表达：基于特征的与fine-tuning。基于特征的方法例如ELMo（Peters et al., 2018a），使用任务专用结构，将预训练表达作为额外特征。Fine-tuning方法，例如Generative Pre-trained Transformer（OpenAI GPT）（(Radford et al., 2018），引入了最小特定任务参数，通过在下游任务上简单微调所有预训练权重。这两种方式在在预训练时共享相同的目标函数，都使用单向语言模型学习通用语言表达。

我们认为，当前的技术限制了预训练的表示的能力，特别是对于微调方法。主要的限制是标准语言是单向的，这限制了在预训练过程中可以选择的结构。例如在OpenAIGPT中，作者使用了从左到右的结构，这里每个词只能处理Transformer的self-attention层中以前的词（Vaswani et al., 2017）。这样的限制对于句子级的任务来说是次优的，当将基于调优的方法应用于诸如回答问题之类的单词级任务时可能会十分不利，因为在这些任务中，从两个方向合并上下文是非常重要的。

本文中，我们通过提出BERT（Bidirectional Encoder Representations from Transformers）优化基于微调的方法。受到Cloze task（Taylor, 1953）的启发，BERT通过使用masked language model（MLM）预训练目标缓解之前提到的单方向限制。MLM从输入里随机遮盖一些词语，目标是仅根据上下文预测掩蔽词的原始词汇id。与从左到右的语言模型预训练不同，MLM目标使得表示能够融合左右上下文，这使得我们能够预先训练一个深层双向转换器。除了 masked language model之外，我们还使用一个“下一句话预测”任务来联合训练文本对表示。本文贡献如下：

1、我们论证了语言表征的双向预训练的重要性。与使用单向语言预训练模型的 Radford et al. （2018）不同，BERT使用MLM来预训练双向深度表达。与Peters et al.（2018a）对比，使用独立训练的从左到右和从右到左的LMs的简单连接。

2、我们展示了预训练表达可以减少对需要大量手工设计的任务专用结构的需求。BERT是第一个基于微调的表达模型达在一系列句子级别与词语级别任务上达到SOTA的表现，优于许多特定于任务的体系结构。

3、BERT推进了11中NLP任务的SOTA。源码与预训练模型已开源：https://github.com/google-research/bert。

2、Related Work

预训练通用语言表达有很长的研究历史，本章我们简要的回顾下那些广泛使用的方法。

2.1 Unsupervised Feature-based Approaches

近十年来，学习广泛可接受的词表达都是活跃的研究领域，包括非神经网络（Brown et al., 1992;Ando and Zhang, 2005; Blitzer et al., 2006）与神经网络方法（Mikolov et al., 2013; Pennington et al.,2014）。预训练次嵌入式现代NLP系统不可分割的部分，为从头开始学习的嵌入式系统提供了显著的改进（Turian et al., 2010）。为了训练词嵌入向量，将从左到右的语言模型（Mnih and Hinton, 2009）与区分左右语境中的正确词语和错误词语两种目标进行结合（Mikolov et al., 2013）。

这些方法已经被推广到更粗的粒度，例如句子嵌入（Kiros et al., 2015; Logeswaran and Lee,2018)）或段落嵌入（Le and Mikolov,2014）。为了训练句子表达，之前的工作已经使用目标来对接下来候选的句子进行排序（Jernite et al., 2017; Logeswaran and Lee, 2018），通过上一句的表示，从左到右生成下个句子的单词（Kiros et al., 2015），或者去噪的自动编码器派生的目标（Hill et al., 2016）。

ELMo与它之前的工作（Peters et al., 2017,2018a）从不同的维度概括了传统的词嵌入研究。他们用从左到右与从右到左的语言模型提取了上下文敏感的特征。每个词的上下文表示是左到右和右到左表示的级联。在将上下文相关的词嵌入与现有的特定于任务的体系结构集成时，ELMo提升了几个主要NLP的benchmark（Peters et al., 2018a），包括问答（Rajpurkar et al., 2016），情感分析（Socher et al., 2013），与实体命名分析（Tjong Kim Sang and De Meulder,2003）。Melamud et al.

最低0.47元/天解锁文章