文本分类(一) | (2) 数据集及预处理

本文介绍如何使用THUCNews数据集进行文本分类任务,包括数据集的详细信息、预处理步骤,如分词、去停用词、词频统计等,以及如何构建和使用词典。

项目Github地址

我们的文本分类系统使用的是THUCnews数据集。

目录

1. 数据集简介

2. 数据预处理

3. 具体细节


1. 数据集简介

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

完整数据集压缩包下载

 

2. 数据预处理

在进行特征提取之前,需要对原始文本数据进行预处理,这对于特征提取来说至关重要,一个好的预处理过程会显著的提高特征提取的质量以及分类算法的性能。 文本预处理一般包括以下步骤:

(1)分词:首先,需要把文本切分成单词或短语。对于英文文本,可以直接按照空格进行切分(此时句末的标点不会单独切分出来)或使用一些英文分词工具如 nltk中的分词工具; 对于中文文本,可以使用分词工具(如 jieba 等)进行切分。(文本分类算法有基于词和基于字符两种处理方式,一般来说基于词的文本分类算法效果更好,本专栏介绍的文本分类算法都是基于词的处理方式)。

(2)去停止词:所谓停止词,就是在文本中大量出现但对分类并没有太多作用的词。如英文里的{'a','an','the','above','after','of'......}中文里的{'的','这','那',...}在这一步

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值