（1 NLTK学习笔记

最新推荐文章于 2022-07-04 21:14:38 发布

原创最新推荐文章于 2022-07-04 21:14:38 发布 · 219 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

自然语言处理专栏收录该内容

4 篇文章

订阅专栏

这篇博客详细介绍了NLTK库的学习，包括如何使用布朗语料库，挑选特定类别，并通过for循环进行优化。同时，作者探讨了网络和聊天文本的处理，如导入webtext语料库，计算文件频率分布，并找到最常出现的单词。对于Mac用户，还分享了处理多版本Python的方法。

NLTK学习笔记

（1 NLTK学习笔记

1 布朗语料库
导入：

Import nltk
From nltk.corpus import brown

调用语料库中所有的类别：

Print(brown.categories())

在所有的类别中挑选出某几种类别：

Genres=[‘’]
Whwords=[‘’]

使用for循环来进行迭代并优化代码行数：

for I in range(0,len(genres)):genre=genre[i]
print()
print(“analysing’”+genre+”’wh words”)
genre_text = brown.words(categories=genre)

NLTK库的FreqDist函数

fdist = nltk. FreqDist(genre_text)    //简短声明
for wh in whwords:                    //得到每个词的个数
print(wh+’+’,fdist[wh],end=’’)

2 网络和聊天文本
导入库和webtext语料库

import nltk
from nltk.corpus import webtext
print(webtext. fields())

计算文件频率分布

fileid = ‘name.txt’
wbt_words = webtext.words(fileid)
fdist=nltk.FreqDist(wbt_words)

最长出现的单词，和其计数：

print(‘max”’,fdist.max(),’”:’),
fdist[fdist.max()])

fdist.N()函数得到频率分布包中不同单词的计数。
fdist.most_common()找出语料库中最常见的n个单词

mac中多版本python处理方式
python2 -m pip install xxx 或 python3 -m pip install xxx

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chujiu0

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

nltk库中的brown包

04-18

nltk的官方下载download()方法太坑人，这里是nltk中的brown模块的包，供需要的朋友直接使用

参与评论您还未登录，请先登录后发表或查看评论

NLTK学习笔记——信息抽取（1）

cangqiong112758的博客

03-03

8400

信息抽取的内容在《Natural Language Processing》第7章，对于文本的信息抽取，命名实体及其关系的识别是至关重要要的，信息抽取分为以下几个步骤： 1. 文本切分，将string类型的文本划分为list类型的句子 2. 句子切分，将每个list类型的句子划分成由单词或chunk组成的list 3. 词性标注，生成由一个list，其组成内容是多个形如(word,labl

解决nltk download(‘brown’)连接尝试失败问题

qq_44948213的博客

07-04

1661

解决nltk download(‘brown’)连接尝试失败

nltk(3)——语料库

wang735019的专栏

12-29

7705

NLTK包含众多一系列的语料库，这些语料库可以通过nltk.package 导入使用。每一个语料库可以通过一个叫做“语料库读取器”的工具读取语料库，例如：nltk.corpus 每一个语料库都包含许多的文件或者是很多的文档。若要获取这些文件的列表，可以通过语料库的fileids()方法。 import nltk.corpus.brown #导入brown语料库 brown.fileid

NLTK读书笔记 — 分类与标注

ch的专栏

12-17

7586

本文转载自http://www.tuicool.com/articles/feAfi2 0. 本章所关注的问题 (1) 什么是lexical categories，怎样将它们应用于NLP?(2) 什么样的python数据结构更适合存储词和它们的类别?(3) 我们怎样自动地给词做标注另外，本章还会包含NLP中一些基础的技术： sequence labeling , n-gr

nltk使用方法总结

weixin_43758551的博客

08-28

1885

https://www.52nlp.cn/tag/nltk%E4%BB%8B%E7%BB%8D https://www.52nlp.cn/author/baiboy https://www.cnblogs.com/baiboy/p/nltk1.html https://www.cnblogs.com/chen8023miss/p/11458571.html https://zhuanlan.zhihu.com/p/98808960 https://blog.csdn.net/sunflower_sara/a

NLTK学习笔记——Classify模块（1）

cangqiong112758的博客

03-03

1369

前言：在NLTK中讲分类和标注的是第5、6两章，这里把两个章节整合了一下。本文主要是知识点的笔记，在《NLTK学习笔记——分类和标注（2）》中进行实战的介绍。 str2tuple() 从表示一个已标注的标识符的标准字符串创建一个这样的特殊元组 print wordlist.tabulate(); 按词频降序输出所有的词，如：有监督的分类过程官方例子特征：最后一个字母；特征可能值：

python nltk book_python nltk 学习笔记(1)

weixin_28936857的博客

02-09

147

from nltk.book import *>>> type(text1)http://nltk.googlecode.com/svn/trunk/doc/api/nltk.text.Text-class.htmltext1.concordance("monstrous")text1.similar("monstrous")sorted(set(text3))>>&...

《Python机器学习及实践：从零开始通往Kaggle竞赛之路》第3章进阶篇 学习笔记（八）3.2.1自然语言处理包（NLTK）总结

wyatt007的博客

06-20

400

3.2.1自然语言处理包（NLTK） 0、引言（1）背景重点介绍的Scikit-learn几乎囊括了所有机器学习领域的经典模型。掌握这些模型对于初学者来讲是十分必要的。然而，许多从业者却更加热衷于那些尽管描述复杂但是功能强大、性能强劲的新模型，教科书中的经典显然无法满足他们的胃口。机器学习方法之所以能够在短短十几年间成为计算机科学领域炙手可热的研究话题，并且广泛应用于现实生活中的方方面面...

win10下使用nltk的brown的词性tag包报错以及处理方法安装nltk相应包的操作办法

icehui2012的博客

06-17

2175

笔者近期练习NLP的给句子的词性进行tag操作，操作中出错，具体显示如下： LookupError Traceback (most recent call last) C:\Users\Administrator\Anaconda2\lib\site-packages\nltk\corpus\util.py in __load(

Python nltk Brown最有新闻价值并且是最浪漫的日子

shanyuelanhua的专栏

04-21

1514

思考题：处理布朗语料库的新闻和言情文体，找出一周中最有新闻价值并且是最浪漫的日子。定义一个变量days 包含星期的链表如[‘Monday’, …]。然后使用cfd.tabulate(samples=days)为这些词的计数制表。接下来用绘图替代制表尝试同样的事情。你可以在额外的参数conditions=[‘Monday’, …]的帮助下控制星期输出的顺序。代码如下：days=['Monday

NLTK学习之一：简单文本分析

热门推荐

zzulp的专栏

08-13

6万+

nltk的全称是natural language toolkit，是一套基于python的自然语言处理工具集。1 NLTK的安装nltk的安装十分便捷，只需要pip就可以。pip install nltk在nltk中集成了语料与模型等的包管理器，通过在python解释器中执行>>> import nltk >>> nltk.download()便会弹出下面的包管理界面，在管理器中可以下载语料，预训练

NLTK学习（二）

cchangcs

09-17

914

转载自：NLTK学习之二：建构词性标注器学习所用，如有侵权，立即删除。词性标注，或POS(Part Of Speech)，是一种分析句子成分的方法，通过它来识别每个词的词性。下面简要列举POS的tagset含意，详细可看nltk.help.brown_tagset() 标记词性示例 ADJ 形容词 new, good, high, special, big...

自然语言处理NLTK（一）：NLTK和语料库

haleycat的博客

04-08

8582

对于文本的研究，对于语言主要是中文，英文的研究反而会少了很多，主要还是因为应用的问题，而现在对于海外的产品来说，英文的语言处理，会越来越显得重要，其实对英文语言处理资料会比中文的来得多，来得全，很多中文研究的方法是借鉴了英文处理的思想。 NLTK是python中研究自然语言的非常优秀的第三方库，里面集中了非常多的自然语言处理方式的算法，不需要自己去编写算法，可以让我们更多的去关系应用本身。 NLTK的安装 NLTK的安装，跟python安装第三方包并没有太多的区别。 pip install nltk 对于

【原】Python NLP实战之一：环境准备

iteye_19939的博客

05-07

666

最近正在学习Python，看了几本关于Python入门的书和用Python进行自然语言处理的书，如《Python编程实践》、《Python基础教程》（第2版）、《Python自然语言处理》（影印版）。因为以前是学Java的，有着良好的面向对象的思维方式，所以刚开始看Python的语法，觉得Pyhon太随意了，很别扭，有不正规之嫌。而且，Python自己也正在向面向对象（OO）靠拢。但是，后来看到P...

NLTK 的使用

tz_zs的博客

04-06

4230

____tz_zsnltk文档：http://www.nltk.org/nltk github：https://github.com/nltk/nltk《Natural Language Processing with Python》（需翻墙）：http://www.nltk.org/book/Natural Language Toolkit，自然语言处理工具包文本预处理流程··NLTK 模块NL...

NLP-nltk篇

草棚

06-24

3709

nltkby deamon(deamoncao@163.com) nltk的全称是natural language toolkit，是一套基于python的自然语言处理工具集,⾃带语料库，词性分类库,⾃带分类，分词，等等功能。注意：在运行命令nltk.download()安装 NLTK 的 nltk_data 模块的时候可能会出错。此时建议离线下载安装 NLTK 的 nltk_data 模块。数...

自然语言处理库——NLTK

满腹的小不甘

05-09

7886

NLTK（www.nltk.org）是在处理预料库、分类文本、分析语言结构等多项操作中最长遇到的包。其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。 ...

python自然语言处理（一）NLTK初步使用

a18852867035的博客

01-06

1万+

NLTK是Python很强大的第三方库，可以很方便的完成很多自然语言处理（NLP）的任务，包括分词、词性标注、命名实体识别（NER）及句法分析。一 nltk安装教程首先，保证已经安装成功python。然后终端输入命令:pip install nltk；安装完成后，输入import nltk了，然后输入nltk.download()，这样就可以打开一个NLTK Downloade

python中common是什么意思_（找不到）python可数属性most_common（）

weixin_39755890的博客

01-29

663

新手。我正在浏览nltk书和另一本Python介绍书。我在之前的nltk书中遇到了most_common()，虽然当时我无法让它工作，也找不到解决方案，但我创建了一个小函数，它在特定的练习中起到了关键作用，并一直在运行。现在我再次需要它，但我不认为我能很容易地绕过它(练习是关于特定文本中最常见的单词长度)，另外，我知道我会在后面的例子中再次找到它，我希望能够跟上，因为，正如我所说，我是一个新手。理...