from nltk.book import *
从NLTK的book中加载所有东西

一 搜索文本
text.concordance(word)
在text中找到指定单词word并显示上下文

text.similar(word)
根据word的上下文单词的情况,来查找具有相似的上下文单词
会在文本中搜索具有类似结构的其他单词只考虑一些简单的指标,不考虑语义
text.common_contexts([“word1”,“word2”])
两个或两个以上的单词共同的上下文
>>> text2.common_contexts(["monstrous", "very"])
a_pretty is_pretty am_glad be_glad a_lucky
>>>
a monstrous pretty/ a very pretty共同出现于text2中
text.dispersion_plot([word1,word2])
离散图 表示单词位置信息
每一个竖线代表一个单词 每一行代表整个文本
text4.dispersion_plot(["citizens","democaracy"])

二 词汇计数
len(word)
获取长度
set(text)
获取词符的集合
词符表示一个整体对待的字符序列
在集合中所有重复的元素都只算一个
count(word)
定义函数
def per(count, total):
return 100*count/total
print(per(100*text1.count("monstrous"), len(text1)))
本文介绍了Python的nltk库在文本处理中的应用,包括使用concordance()搜索文本中的单词及其上下文,通过similar()查找具有相似上下文的单词,利用common_contexts()展示单词共现的上下文,以及用dispersion_plot()绘制单词在文本中的分布。此外,还讨论了词汇计数的方法,如计算词的长度,获取词集和计数特定单词。

2520

被折叠的 条评论
为什么被折叠?



