基于神经网络的文本分类(基于Pytorch实现)

本文介绍了文本分类的基础概念,包括基于规则、特征和神经网络的方法。重点解析了Yoon Kim的《Convolutional Neural Networks for Sentence Classification》论文,阐述了如何使用卷积神经网络进行句子级别的文本分类。

《Convolutional Neural Networks for Sentence Classification》

作者:Yoon Kim
单位:New York University
发表会议及时间:EMNLP 2014

1、文本分类简介

文本分类,指的是给定分类体系,将文本分类到某个或者几个类别中。根据其目标类别的数量,文本分类涵盖了二分类、多分类、多标签分类等常见分类场景。

文本分类是计算语言学的一个分支,同时也是自然语言处理中最基础的一个任务。

在这里插入图片描述

1.1 文本分类研究意义

文本分类是自然语言处理中最基础的一个任务,涵盖了新闻主题分类、情感分类、关系分类、意图识别等常见的自然语言处理场景。所以,开展文本分类相关的研究具有十分重要的理论意义和应用价值。
在这里插入图片描述

1.2 文本表示

文本分类中的关键问题在于文本表示,所谓文本表示指的是,通过某种方式将自然语言文本编码为计算机可以处理的形式(向量),这是实现自然语言理解中最基础也是最重要的步骤。文本表示方法主要有两种,一种是基于词袋的文本表示,一种是基于词嵌入的文本表示。
在这里插入图片描述

1.3文本分类发展历史

趋势:让机器更准确地捕获文本中的关键信息;
在这里插入图片描述

1.3.1 基于规则的文本分类

基本思想:就是使用人工编写特定的规则来进行分类,一般情况下,当文本中含有特定词语、短语或者模型时即将其判定为相应的类别,是最古老也是最简单的一种分类方法。

在这里插入图片描述
大体流程大体流程
在这里插入图片描述
举例说明举例说明
这种基于规则的文本分类方法效果并不好,因为语言表达形式十分灵活,语法规则无法覆盖所有的情况。而且这种方法高度依赖于专家。

1.3.2 基于特征的文本分类

基本思想:通过人工设计和提取特征。例如:词法特征、句法特征等,使用机器学习模型来捕获句子中所蕴含的关键信息,从而减少噪声词对最终结果的影响。

以向量空间模型为例:

  • 使用词袋模型来表示每个词;
  • 使用词项作为特征项,使用词在文档中的TF-IDF值作为词的权重(特征权重);
  • 使用加权求和得到文本表示;
  • 训练一个分类器(LR、SVM)进行文本分类
    在这里插入图片描述

1.3.3 基于神经网络的文本分类

基本思想:首先将输入的文本进行分词等一系列基础操作,随后将句子中的单词转化为低维的词表示,使用编码器(卷积神经网络、循环神经网络)得到句子表示,最终得到文本的目标类别。
在这里插入图片描述
大体流程大体流程
这篇论文就是基于神经网路的文本分类的开山之作。

1.3.4 总结

  • 基于规则的文本分类方法:
    优点:易于实现,无需训练数据;
    缺点:人工成本较高,效果较差;
  • 基于特征的文本分类方法:
    优点:易于复用,能够进行信息的筛选;
    缺点:人工提取特征的成本很高;
  • 基于神经网络的文本分类方法:
    优点:无序人工特征,一般效果很好;
    缺点:可解释性差,训练资源消耗大;

2、卷积神经网络相关技术

2.1 卷积神经网络

卷积神经网络:多层感知层是一种全连接的结构,但是全连接的网络会存在一定程度的冗余,卷积神经网络通过局部连接和权重共享的方法来实现对多层感知机的共享。
在这里插入图片描述
一维卷积操作:给定一个序列X={ x1,x2,...,xn}X=\{x_1,x_2,...,x_n\}X={ x

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值