NLTK学习笔记
(1 NLTK学习笔记
1 布朗语料库
导入:
Import nltk
From nltk.corpus import brown
调用语料库中所有的类别:
Print(brown.categories())
在所有的类别中挑选出某几种类别:
Genres=[‘’]
Whwords=[‘’]
使用for循环来进行迭代并优化代码行数:
for I in range(0,len(genres)):genre=genre[i]
print()
print(“analysing’”+genre+”’wh words”)
genre_text = brown.words(categories=genre)
NLTK库的FreqDist函数
fdist = nltk. FreqDist(genre_text) //简短声明
for wh in whwords: //得到每个词的个数
print(wh+’+’,fdist[wh],end=’’)
2 网络和聊天文本
导入库和webtext语料库
import nltk
from nltk.corpus import webtext
print(webtext. fields())
计算文件频率分布
fileid = ‘name.txt’
wbt_words = webtext.words(fileid)
fdist=nltk.FreqDist(wbt_words)
最长出现的单词,和其计数:
print(‘max”’,fdist.max(),’”:’),
fdist[fdist.max()])
fdist.N()函数得到频率分布包中不同单词的计数。
fdist.most_common()找出语料库中最常见的n个单词
mac中多版本python处理方式
python2 -m pip install xxx 或 python3 -m pip install xxx
这篇博客详细介绍了NLTK库的学习,包括如何使用布朗语料库,挑选特定类别,并通过for循环进行优化。同时,作者探讨了网络和聊天文本的处理,如导入webtext语料库,计算文件频率分布,并找到最常出现的单词。对于Mac用户,还分享了处理多版本Python的方法。

8400

被折叠的 条评论
为什么被折叠?



