语料库创造词云图

最新推荐文章于 2026-06-26 13:57:23 发布

原创

最新推荐文章于 2026-06-26 13:57:23 发布 · 632 阅读

·

0

·

该程序使用jieba进行中文分词，去除停用词，然后利用词云库生成基于文本频率的词云图，同时可以自定义背景图片。通过matplotlib显示和保存词云结果。

这是网上查到的，直接改背景图、停用词、语料txt文本就可以了，发现挺好用，就想发上来。

coding=utf-8

“”"
@author: jiajiknag
程序功能：
a：对一篇中文小说进行分词，产生结果。
b：分词的结果用词云的方式进行统计
c：形成一个根据词语出现频率的不同生成词云的关键字大小不同的图片，并且对词云图片设置背景图。
d: 最近为了使分词效果更好，把文章中的停用词去掉以达到更好的效果。
“”"
import jieba
from os import path #用来获取文档的路径

#词云
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
#词云生成工具
from wordcloud import WordCloud,ImageColorGenerator
#需要对中文进行处理
import matplotlib.font_manager as fm

#背景图
bg=np.array(Image.open(“2.jpg”)) #需要改的地方①

#获取当前的项目文件加的路径
d=path.dirname(file)
#读取停用词表
stopwords_path=‘stop_words.txt’ #需要改的地方②

#读取要分析的文本
text_path=“data/all.txt” # 需要改的地方③
#读取要分析的文本，读取格式
text=open(path.join(d,text_path),encoding=“utf8”).read()

#定义个函数式用于分词
def jiebaclearText(te

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。