基于nltk的自然语言处理---stopwords停用词处理

最新推荐文章于 2025-10-26 10:16:56 发布

原创

最新推荐文章于 2025-10-26 10:16:56 发布 · 1.1w 阅读

标签

#python #csv #自然语言处理

收录于

本文介绍了一个使用nltk库进行自然语言处理的停用词测试脚本，针对字符串进行处理。在处理中可能遇到nltk_data语料下载问题，解决方案包括切换网络或手动下载到指定路径。清洗过程去除数字等噪声数据，使数据变得规范。最后进行了停用词处理，以优化文本内容。

一个nltk库的自然语言处理stopwords停用词的测试脚本，先对一段字符串进行测试：

import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt')


#example_sent= pd.read_csv('D:/set/PubMed/1813/1-grams-1813.tsv')
example_sent = "the respecting  Spasmodic SecondaryVenereal off from Fluids	portions partly Nerve Example	some Natives  Metacarpal Contracted Constitutions	Instance jat by severe double Appendix contained Joints Disorders <BOS> Tumour Vascular Tongue Bone case Liver Account Diseases History Explanation A <EOS> Soldiery Human Brain betweenHumor operation , cyst Tabular Radial attended situated Inflammation Puberty attached sawing evacuating Dissection DiseaseMouth Groin Some Bones cases circumstances posterior Cataract	intoStrangulatedAqueous Observations . was to which Aneurism Paralysis	beneficial	Eyes Opium Ossium Effects Hemorrhage Appearance succeeded On a with Synopsis Fon in successfully"
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example_sent)
filtered_sentence = [w for w in word_tokens if not w in stop_words]
filtered_sentence = []
for w in word_tokens:
     if w

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

GGGJF

关注关注

4
点赞
踩
29

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

NLTK下载停用词（stopwords）

03-28

Resource stopwords not found. Please use the NLTK Downloader to obtain the resource: import nltk >>> nltk.download('stopwords') For more information see: https://www.nltk.org/data.html Attempted to load corpora/stopwords 错误解决方法。 NLTK下载停用词（stopwords）资源，下载后解压到相应目录中即可，亲测可用！

3 条评论您还未登录，请先登录后发表或查看评论

机器学习|nltk_Data下载错误|nltk的stopwords语料下载错误解决方法

sc_jizhi的博客

05-29

2287

[nltk_data] Error loading stopwords: False OSError Traceback (most recent call last) ~\AppData\Local\Temp/ipykernel_6204/767069256.py in

nltk.download(‘stopwords‘)之类问题解决方案

qq_63385279的博客

02-21

2309

nltk.download('stopwords')之类问题解决方案

nltk.download(‘stopwords‘)报错，解决方案

AIHUBEI的博客

08-12

1万+

nltk.download(‘stopwords’)报错，解决方案如下＃报错信息如下 [nltk_data] Error loading stopwords: <urlopen error [Errno 11004] [nltk_data] getaddrinfo failed> False 1.解决方案手动下载数据，并放在指定位置下载地址：https://files-cdn.cnblogs.com/files/douzujun/stopwords.zip 下载解压之后放在哪里

【Python】已解决：nltk.download(‘stopwords‘) 报错问题

屿小夏.的知识博客

07-07

2075

在使用Python的自然语言处理库NLTK（Natural Language Toolkit）时，经常会用到其提供的各种语料库和资源，比如停用词（stopwords）。然而，在尝试下载这些资源时，有时会遇到网络连接问题，导致下载失败。在代码层面，没有特别的“正确代码”可以解决这个问题，因为它更多地与网络环境和配置相关。通过检查和调整网络环境，以及采取适当的错误处理措施，可以有效避免和解决这类问题。如果以上方法都不能解决问题，可以考虑使用其他网络环境尝试下载，或者联系NLTK的支持团队寻求帮助。

nltk报错Error loading stopwords: ＜urlopen error [Errno 11004]

05-29

1425

最佳解决方案是手动下载并安装 nltk 数据。

Python自然语言处理必备资源包nltk_data完整扩展

最新发布

weixin_42611177的博客

10-26

473

nltk_data是NLTK库的核心依赖资源集合，包含分词模型、停用词表、语料库和标注器等关键组件。其正确安装与配置是使用NLTK的前提。可通过Python接口自动下载：nltk.download('punkt') # 下载句子分割模型nltk.download('stopwords') # 下载停用词表也可手动部署解压至用户目录或通过设置环境变量NLTK_DATA指定路径。常见问题如网络超时可使用镜像源，权限错误建议指定本地路径。

【亲测免费】 German Stopwords 项目使用教程

gitblog_00009的博客

06-07

575

German Stopwords 项目使用教程 1. 项目介绍 German Stopwords 是一个开源项目，提供了扩展的德语停用词列表，适用于各种网络项目和搜索引擎。停用词是指在文本处理中被忽略的常见词汇，如“der”、“die”、“das”等，这些词汇在文本分析中通常不具有重要意义。该项目包含两个主要的停用词列表： german_stopwords_plain.txt: 仅包含“真实”...

自然语言处理（基于预训练模型）02NLTK工具集

weixin_54039182的博客

11-13

905

本篇主要对于NLTK工具集的语料库和词典资源以及常用自然语言处理工具集进行介绍以及编程演示。

nltk 报错[nltk_data] Error loading stopwords: hostname

lip

08-01

9380

nltk 报错[nltk_data] Error loading stopwords: hostname，采用下面代码下载stopwords来解决 import nltk import ssl try: _create_unverified_https_context = ssl._create_unverified_context except AttributeError: ...

python去停用词用nltk_NLTK在去停用词、分词、分句以及词性标注的使用

weixin_39868663的博客

11-24

1228

因为实习的缘故，所以有机会接触到了自然语言处理的一些方面。这里主要总结一下在python环境下进行自然语言处理的相关包和可能会出现的相关错误，目前接触的都比较Low,但是还是想要记录下来。Nltk是python下处理语言的主要工具包，可以实现去除停用词、词性标注以及分词和分句等。安装nltk,我写python一般使用的是集成环境EPD，其中有包管理，可以在线进行安装。如果不是集成环境，可以通过pi...

已解决nltk.download(‘stopwords‘) [nltk_data] Error loading stopwords: ＜urlopen error [Errno 11004] [nlt

努力让自己发光，对的人才能迎着光而来

09-03

1万+

已解决（nltk下载停用词报错）nltk.download(‘stopwords’) [nltk_data] Error loading stopwords: False

nltk下载stopwords最简便的方法

KUKUKAKASSAN的博客

10-05

3927

如果你也像我一样下载stopwords无法成功，并且被别人的下载方式搞得云里雾里，请用我接下来的方法下载。下载成功以后我也很蒙，后来发现nltk的库多点几次downloads是都可以完成下载的，不需要特别繁琐的其他步骤。试一两次可能没办法成功，多试几次就可以了。

NLTK

wangxiaosu的专栏

10-11

1394

1、nltk.download('stopwords')：（1）由于实验室服务器无法连接到NLTK指定的URL，所以这里只能手动下载需要的数据，即停用词stopwords。从运行上面代码报的错误得知，NLTK会默认搜索几个路径，以求找到本地已经下载好的nltk_data： Attempted to load corpora/stopwords Searched in: ...

nltk使用方法总结

weixin_43758551的博客

08-28

1885

https://www.52nlp.cn/tag/nltk%E4%BB%8B%E7%BB%8D https://www.52nlp.cn/author/baiboy https://www.cnblogs.com/baiboy/p/nltk1.html https://www.cnblogs.com/chen8023miss/p/11458571.html https://zhuanlan.zhihu.com/p/98808960 https://blog.csdn.net/sunflower_sara/a

【小沐学NLP】Python使用NLTK库的入门教程

爱看书的小沐

09-03

1万+

NLTK - 自然语言工具包 - 是一套开源Python。支持自然研究和开发的模块、数据集和教程语言处理。NLTK 需要 Python 版本 3.7、3.8、3.9、3.10 或 3.11。NLTK是一个高效的Python构建的平台，用来处理人类自然语言数据。它提供了易于使用的接口，通过这些接口可以访问超过50个语料库和词汇资源（如WordNet），还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库，以及工业级NLP库的封装器和一个活跃的讨论论坛。

【自然语言处理】 | NLTK初识

小小梦想家

02-27

302

NLTK是自然语言处理中常用的工具包导入： import nltk nltk中的工具/模块/包不是事先安装好的，需要用到哪个就安装那个，安装方法： nltk.download() 就打开了安装界面，在all packages中选择需要的包安装即可。分词：（下面以英文文本处理为例） from nltk.tokenize import word_tokenize from ...

【NLP】英文数据预处理__词频统计简例

越努力，越幸运

10-16

1470

注：此处使用Gensim包处理后的“data_lemmatized”（再经简单处理）作为词频统计的输入数据“features” import collections features=['kansai', 'electric', 'back','electric']#输入数据的格式 def train(features): model = collections.defaultdict...

【停用词】NLP中的停用词怎么获取？我整理了6种方法

马哥的专栏

07-08

4784

马哥原创：6种获取停用词的方法

手动下载数据，解决nltk.download(‘stopwords‘)问题