python NLTK——文本和单词

最新推荐文章于 2024-06-29 22:11:22 发布

翻译最新推荐文章于 2024-06-29 22:11:22 发布 · 751 阅读

收录于

NLP 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了Python的nltk库在文本处理中的应用，包括使用concordance()搜索文本中的单词及其上下文，通过similar()查找具有相似上下文的单词，利用common_contexts()展示单词共现的上下文，以及用dispersion_plot()绘制单词在文本中的分布。此外，还讨论了词汇计数的方法，如计算词的长度，获取词集和计数特定单词。

from nltk.book import *
从NLTK的book中加载所有东西
在这里插入图片描述

一搜索文本

text.concordance(word)

在text中找到指定单词word并显示上下文
在这里插入图片描述

text.similar(word)

根据word的上下文单词的情况，来查找具有相似的上下文单词

会在文本中搜索具有类似结构的其他单词只考虑一些简单的指标，不考虑语义

text.common_contexts([“word1”,“word2”])

两个或两个以上的单词共同的上下文

>>> text2.common_contexts(["monstrous", "very"])
a_pretty is_pretty am_glad be_glad a_lucky
>>>

a monstrous pretty/ a very pretty共同出现于text2中

text.dispersion_plot([word1,word2])

离散图表示单词位置信息
每一个竖线代表一个单词每一行代表整个文本

text4.dispersion_plot(["citizens","democaracy"])

在这里插入图片描述

二词汇计数

len(word)

获取长度

set(text)

获取词符的集合
词符表示一个整体对待的字符序列
在集合中所有重复的元素都只算一个

count(word)

定义函数

def per(count, total):
    return 100*count/total


print(per(100*text1.count("monstrous"), len(text1)))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SaltedVegetable

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

自然语言处理—规则分词法

qq_49410604的博客

10-01

2520

什么是规则分词基于规则的分词是一种机械分词方法，主要是通过维护词典，在切分语句时，将语句的每个字符串与词表中的词进行逐一匹配，找到则切分，否则不予切分。按照匹配切分的方式，主要有正向最大匹配法、逆向最大匹配法以及双向最大匹配法三种方法。正向最大匹配法（MM法） 1.算法描述如图所示，正向最大匹配法的具体步骤为：从左向右取待切分汉语句的m个字符作为匹配字段，m是机器词典中最长词条的字符数；查找机器词典并进行匹配。匹配成功则将匹配字段作为一个词切分出来，匹配失败则将匹配字段的最后一个字

参与评论您还未登录，请先登录后发表或查看评论

使用Python中的NLTK和spaCy删除停用词与文本标准化

TensorFlowNews

09-08

9770

　概述了解如何在Python中删除停用词与文本标准化，这些是自然语言处理的基本技术探索不同的方法来删除停用词，以及讨论文本标准化技术，如词干化(stemming)和词形还原(lemmatization) 在Python中使用NLTK，spaCy和Gensim库进行去除停用词和文本标准化介绍多样化的自然语言处理(NLP)是真的很棒，我们以前从未...

python 笔记：nltk （标记英文单词词性等）

qq_40206371的博客

04-09

2845

1 单词切分 import nltk content = 'She sells seashells on the seashore. The seashells she sells are seashells, she is sure.' tokens = nltk.word_tokenize(content) print(tokens) #['She', 'sells', 'seashells', 'on', 'the', 'seashore', '.', 'The', 'seashells',

回顾---（2）

qq_42822743的博客

05-16

545

谨以此篇练习来回顾前段时间所学习到的字符串内建函数的一些知识。 1、practice 1 题目要求： name 变量对应的值的前3个字符逆序输出编写代码如下： name = input('请输入用户名：') s = name[:3] result = s[::-1] print(result) 运行结果如下：请输入用户名：天使的翅膀的使天 2、practice 2 题目要求：开发敏感词语过滤程序，提示用户输入内容，如果用户输入的内容中包含特殊的字符：如一些政治敏感的词语，则将内容替换为

python求字符串最后一个单词的长度

qq_44243729的博客

01-11

600

python求字符串最后一个单词的长度 word = input() n=word.split()[-1] print(len(n)) 运行结果：

Python 使用nltk计算词的搭配

计算机视觉

01-21

2991

#!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2015-1-21 @author: beyondzhou @name: nltk_compute_collocation.py ''' import json import nltk # Load in human language data DATA = r'E:\ecli

NLTK学习1：用python语言进行计算：文本和单词

北冥有渔的博客

03-21

750

1用python语言进行计算：文本和单词在继续之前，您应该安装NLTK 3.0 ，教程见https://blog.csdn.net/weixin_44763047/article/details/115019546 1.1 NLTK的入门示例加载text1，…， text9和lsend1，… send9 键入要查看的文本或句子的名称。输入: texts () 或 sents () 以列出材料。文本1:白鲸由赫尔曼·梅尔维尔1851年文本2:理智与情感简·奥斯汀1811 文字3:创世记文

利用Sentiwordnet进行文本情感分析（简）

热门推荐

weixin_44592631的博客

03-11

1万+

利用Sentiwordnet进行文本情感分析（简）1. 简介2. 下载NLTK包和它内部的词典3. 全过程代码详解1. 导入所需包，函数2. 分词3. 计数，给予词性标签4. 计算单词得分4. 完整代码（函数形式） 1. 简介利用python中的NLTK包对英文进行分词，得到词频，标注词性，得到单词得分，最后根据实际情况计算文本情感分。注：分词只能得到一个个单词，不能得到短语。 2. 下载NLT...

NLTK替换和矫正单词代码示例

光英的记忆博客

06-03

2374

import nltk from nltk.stem import PorterStemmer from nltk.stem import WordNetLemmatizer import re # import enchant # from nltk.metrics import edit_distance # 词干提取 stemmer = PorterStemmer() print(ste...

NLTK之搜索文本的相关入门函数（二）

樽前花下歌筵里

03-20

1017

·计数函数 1.len() 计算文本长度（以单词和标点符号为单位） >>>len(text1) 44764 >>> 2.set() 用于获取文本词汇表（去重） 3.sorted() 得到一个词汇条目的排序表，这个表以各种标点开始，然后接着是以A开头的词汇，大写排在小写之前。 >>>sorted(set(text3)) ['!',"'",'(',')',',','.','A'

经典面试题：编辑距离，跳跃游戏

Tiger数学之家的博客

08-03

249

LeetCode 72. 编辑距离题目描述给你两个单词 word1 和 word2，请你计算出将 word1 转换成 word2 所使用的最少操作数。你可以对一个单词进行如下三种操作：插入一个字符删除一个字符替换一个字符示例1 输入： word1 = “horse”, word2 = “ros” 输出: 3 解释： horse -> rorse (将 ‘h’ 替换为 ‘r’) rorse -> rose (删除 ‘r’) rose -> ros (删除 ‘e’

1.1搜索文本和计数词汇常用的函数

sinat_37386947的博客

09-09

1090

最近在学《python自然语言处理》这本书，写博客就当做笔记 concordance函数关键词语索引，显示某个词的出现情况和上下文 text1.concordance（"monstrous") similar函数查询括号中相关词在上下文相似的词语 text1.similar("monstrous") common_contexts函数研究共用两个或者两个以上词汇的上下文 tex

Python笔记2（字符串的基本用法1 包括定义，字符串相乘，找到字符串中我想要的字符）

weixin_51801230的博客

10-14

307

字符串就是一种数据类型，是一系列字符 1.首先字符串是一种类型，Python中还有其他类型，可用如下代码查询这个类型 print(type(1.200)) 输出结果为：浮点型 <class 'float'> 不同类型的变量不可以直接查询，要转成这样的才行： 2.字符串相乘 words="words"*3 print(words) 输出结果为： wordswordswords 再来看看更好玩的代码： word = 'a loooooong word' num = 12

说说 Python 中的高阶函数

读万卷书，行万里路

12-06

464

高阶函数（higher-order function）指的是：接受一个函数为参数，或者把函数作为结果值返回的函数1。 1 sorted() 比较常见的高阶函数是 sorted()，其内部的关键字参数 key 可以接受一个函数为参数，来指定值的排序规则2。比如一个单词列表，如果给关键字参数 key 赋予一个 len 函数，就可以让这个列表按照单词的长度进行排序。 animals = ['ox', 'giraffe', 'mouse', 'tiger', 'lion', 'deer', 'goose'] r

python自学日记5——文字游戏

zxbylx1120471286的博客

10-14

622

python自学日记5——文字游戏学习python时记录自己或观察别人从错误到正确的思路远比只看正确答案效果好——傅查理 1.判断单词中是否有字母“e" 写一个函数has_no_e,当给定的单词不包含字母‘e’时，返回True 刚开始我写的是这样的： def has_no_e(word): for letter in word: if letter=='e': ...

3—python变量与字符串基础

小 y 同学的博客

09-10

929

python变量与字符串基础，字符串方法，字符串的格式化，字符串的拆分与索引

六、Python 组合数据类型

Orz

03-06

1228

本文是网课：Python语言程序设计国家精品——（北京理工大学嵩天、黄天羽、礼欣）的学习笔记。目录 6.1 集合类型及操作 6.2 序列类型及操作 6.3 实例9：基本统计值计算 6.4 字典类型及操作 6.5 模块5：jieba库的使用 6.6 实例10：文本词频统计 6.1 集合类型及操作集合类型定义关于Python的元组： Python的元...

NLTK之搜索文本的相关入门函数（一）

樽前花下歌筵里

03-19

1507

字符串匹配在电子字典中查找单词_Excel中需要查找匹配好几列数据，用Vlookup函数一次性匹配结果！...

weixin_39652869的博客

12-14

1295

举个例子，左边是数据源，我们现在需要查找匹配出部分员工的性别，部门，工资等多列信息。碰到这种多列查找匹配，小伙伴们是不是要用3次VLOOKUP函数进行查找在G2输入公式： =VLOOKUP(F2,A:D,2,0)在H2输入公式：=VLOOKUP(F2,A:D,3,0)在I2输入公式：=VLOOKUP(F2,A:D,4,0)这个例子只是需要查找3个，如果需要查找10多个，那用这个还是麻烦了。今天教大...

NLP自然语言处理期末复习练习题