语料库创造词云图

该程序使用jieba进行中文分词,去除停用词,然后利用词云库生成基于文本频率的词云图,同时可以自定义背景图片。通过matplotlib显示和保存词云结果。

这是网上查到的,直接改背景图、停用词、语料txt文本就可以了,发现挺好用,就想发上来。

coding=utf-8

“”"
@author: jiajiknag
程序功能:
a: 对一篇中文小说进行分词,产生结果。
b:分词的结果用词云的方式进行统计
c:形成一个根据词语出现频率的不同生成词云的关键字大小不同的图片,并且对词云图片设置背景图。
d: 最近为了使分词效果更好, 把文章中的停用词去掉以达到更好的效果。
“”"
import jieba
from os import path #用来获取文档的路径

#词云
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
#词云生成工具
from wordcloud import WordCloud,ImageColorGenerator
#需要对中文进行处理
import matplotlib.font_manager as fm

#背景图
bg=np.array(Image.open(“2.jpg”)) #需要改的地方①

#获取当前的项目文件加的路径
d=path.dirname(file)
#读取停用词表
stopwords_path=‘stop_words.txt’ #需要改的地方②

#读取要分析的文本
text_path=“data/all.txt” # 需要改的地方③
#读取要分析的文本,读取格式
text=open(path.join(d,text_path),encoding=“utf8”).read()

#定义个函数式用于分词
def jiebaclearText(te

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值