这是网上查到的,直接改背景图、停用词、语料txt文本就可以了,发现挺好用,就想发上来。
coding=utf-8
“”"
@author: jiajiknag
程序功能:
a: 对一篇中文小说进行分词,产生结果。
b:分词的结果用词云的方式进行统计
c:形成一个根据词语出现频率的不同生成词云的关键字大小不同的图片,并且对词云图片设置背景图。
d: 最近为了使分词效果更好, 把文章中的停用词去掉以达到更好的效果。
“”"
import jieba
from os import path #用来获取文档的路径
#词云
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
#词云生成工具
from wordcloud import WordCloud,ImageColorGenerator
#需要对中文进行处理
import matplotlib.font_manager as fm
#背景图
bg=np.array(Image.open(“2.jpg”)) #需要改的地方①
#获取当前的项目文件加的路径
d=path.dirname(file)
#读取停用词表
stopwords_path=‘stop_words.txt’ #需要改的地方②
#读取要分析的文本
text_path=“data/all.txt” # 需要改的地方③
#读取要分析的文本,读取格式
text=open(path.join(d,text_path),encoding=“utf8”).read()
#定义个函数式用于分词
def jiebaclearText(te

该程序使用jieba进行中文分词,去除停用词,然后利用词云库生成基于文本频率的词云图,同时可以自定义背景图片。通过matplotlib显示和保存词云结果。

1110

被折叠的 条评论
为什么被折叠?



