1、概述
nltk作为自然语言处理(nlp)领域里经常被使用的一款工具。本身自带的语料大部分是英文的,其实跟对中文文档,稍作处理之后也是可以使用的,这里主要介绍nlp在中文领域的基础应用。
2、nltk安装
关于nltk的安装网上有很多的文章介绍,可以使用pip install nltk 命令非常方便的安装nltk。一般在安装完成之后需要使用download命令来下载相关的语料库,这些语料库是官方自带的,大部分是英文语料。很多nltk的教程都是基于这些语料来做的。在执行download命令时,可以由于网络环境的原因下载失败,此时可以从网上下载语料,放在环境变量所制定的文件中,就可以加载使用了。可以从下面连接下载语料:
http://pan.baidu.com/s/1hswoU5u
可以将下载的语料解压之后,放在下面目录中的任何一个就可以了:
- ~/nltk_data
- /usr/share/nltk_data
- /usr/local/share/nltk_data
- /usr/lib/nltk_data
- /usr/local/lib/nltk_data
注意:这里“~”代表用户所在的主目录
3、加载中文语料
nltk自带了很多统计的功能,但针对中文来讲,分词的工作需要我们手动完成。然后再把处理过的文本封装成nltk的“text”对象。然后才能使用nltk进行处理。
3.1 使用结巴进行分词
分词的目的是为nltk的text对象提供封装的语料,所以我们使用结巴分词的lcut方法进行分词,该方法与cut方法不同,返回的分词是一个list对象请参照下面代码:
import jieba
wordlist = jieba.lcut("盗墓不是请客吃饭

本文介绍了如何使用nltk处理中文语料,包括nltk的安装,使用结巴分词进行预处理,统计词频,绘制离散图以及计算词的相似度。通过对《鬼吹灯》等文本的示例,展示了nltk在中文自然语言处理中的基本应用。
- 统计相关&spm=1001.2101.3001.5002&articleId=81562223&d=1&t=3&u=dc26edc7d8774485a9f8fddefcf819d3)
8545

被折叠的 条评论
为什么被折叠?



