使用nltk处理中文语料（1）- 统计相关

最新推荐文章于 2026-03-30 10:29:33 发布

原创

最新推荐文章于 2026-03-30 10:29:33 发布 · 1.8w 阅读

·

13

·

标签

#nltk #自然语言处理 #中文语料

本文介绍了如何使用nltk处理中文语料，包括nltk的安装，使用结巴分词进行预处理，统计词频，绘制离散图以及计算词的相似度。通过对《鬼吹灯》等文本的示例，展示了nltk在中文自然语言处理中的基本应用。

1、概述

nltk作为自然语言处理（nlp）领域里经常被使用的一款工具。本身自带的语料大部分是英文的，其实跟对中文文档，稍作处理之后也是可以使用的，这里主要介绍nlp在中文领域的基础应用。

2、nltk安装

关于nltk的安装网上有很多的文章介绍，可以使用pip install nltk 命令非常方便的安装nltk。一般在安装完成之后需要使用download命令来下载相关的语料库，这些语料库是官方自带的，大部分是英文语料。很多nltk的教程都是基于这些语料来做的。在执行download命令时，可以由于网络环境的原因下载失败，此时可以从网上下载语料，放在环境变量所制定的文件中，就可以加载使用了。可以从下面连接下载语料：

http://pan.baidu.com/s/1hswoU5u

可以将下载的语料解压之后，放在下面目录中的任何一个就可以了：

~/nltk_data
/usr/share/nltk_data
/usr/local/share/nltk_data
/usr/lib/nltk_data
/usr/local/lib/nltk_data

注意：这里“~”代表用户所在的主目录

3、加载中文语料

nltk自带了很多统计的功能，但针对中文来讲，分词的工作需要我们手动完成。然后再把处理过的文本封装成nltk的“text”对象。然后才能使用nltk进行处理。

3.1 使用结巴进行分词

分词的目的是为nltk的text对象提供封装的语料，所以我们使用结巴分词的lcut方法进行分词，该方法与cut方法不同，返回的分词是一个list对象请参照下面代码：

import jieba
wordlist = jieba.lcut("盗墓不是请客吃饭

最低0.47元/天解锁文章

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。