《GPT Understands, Too》论文阅读

最新推荐文章于 2026-06-23 21:10:02 发布

原创最新推荐文章于 2026-06-23 21:10:02 发布 · 366 阅读

10 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#gpt #论文阅读

文章地址：https://arxiv.org/pdf/2103.10385

文章目录

文章介绍

一直以来，人们都认为以GPT系列为代表的单向预训练语言模型始终无法在自然语言理解（natural language understanding, nlu）任务当中取得与BERT系列为代表的的双向预训练语言模型相当的结果。但是该文作者证明在通过P-微调，即应用可训练的连续提示嵌入可以打破这一僵局。在知识探索（LAMA）基准上取得了与BERT相当的结果，在一些小样本和无样本任务当中得分甚至超过了同规模大小的BERT模型。

提示学习

伴随着GPT-3的提出，其在Few-shot以及Zero-shot取得的表现使得人们越来越注意到模板（template）或者提示（prompt）的作用。提示学习一方面可以进一步挖掘的蕴含在大规模预料所训练的语言模型中丰富的语言知识，另一方面也可以在Few-shot以及Zero-shot情况下减少训练所需的参数，近些年也越来越多的人开始研究提示学习。
而如何设计一个良好的版本则是提示学习能否取得良好成绩的关键所在，传统的离散型模板虽然在语法和句式上更符合人类的使用习惯，然而采用连续型的语言模板（可以理解为在人们看来可能毫无意义的数值向量）却更有可能符合模型的胃口，而这也是这篇文章的主要研究内容。

方法： P-tuning

在这里插入图片描述
作者所提出的模型如上图所示，其中左图为离散型模板，而右图为连续型模板，可以看出，与离散型模板不同的是，连续型模板的起始token是个“伪”的，可以随意初始化，但是其却可以是训练的，通过损失函数确定其最终伪模板token向量。
离散型模板的设计如下式所示：
在这里插入图片描述
而作者提出的连续型模板如下所示：

优化方式如下：
在这里插入图片描述
理所应当的，模板token之间应当有联系，因此作者将prompt encoder设计如下：

总结

提示学习的模板如何设计一直是一个很困难的问题，也亟待研究，这种自动型模板生成一方面可以减少人力，另一方面也可以更符合训练的预期。