词云【介绍】:
又称文字云,是文本数据的视觉表示,由词汇组成类似云的彩色图形,用于展示大量文本数据。通常用于描述网站上的关键字元数据(标签),或可视化自由格式文本。 每个词的重要性以字体大小或颜色显示。 词云的作用:
- 快速感知最突出的文字
- 快速定位按字母顺序排列的文字中相对突出的部分
使用:根据爬取的“喵の鍋日式小火锅”店铺的大众点评的评论(https://my.oschina.net/pansy0425/blog/3031041),对其进行简单的词云展示,提取该店铺的关键词!
from wordcloud import WordCloud
from PIL import Image
import matplotlib.pyplot as plt
import numpy as np
def draw_wordcloud(path):
bg_mask = np.array(Image.open('bg.jpg'))
text = open(path, encoding='utf-8').read() #此时text就是所有的文本
my_wordcloud = WordCloud(background_color='black', # 设置背景颜色
mask=bg_mask, # 设置背景图片
max_words=800, # 设置最大显示的字数
font_path=r'C:\Windows\Fonts\STZHONGS.TTF', # 设置中文字体,使的词云可以显示
max_font_size=250, # 设置最大字体大小
random_state=30, # 设置有多少种随机生成状态, 即有多少种配色方案
)
myword = my_wordcloud.generate(text)
plt.imshow(myword)
plt.axis('off')
plt.show()
draw_wordcloud('comment.txt')
结果展示:
关键词:(1)环境【我和闺蜜去过一次,那边的环境是真的很赞!!!】
(2)金遇锅底【我的天,真的是很好吃!!!酸辣口!!!让你欲罢不能!!!】
(3)福袋【一直就很爱吃福袋的我!这家的也超级赞】
(4)其余关键词:服务、杏仁豆腐等也都是这家店的特色,很喜欢这家店啦~~~
------------------------------------------华丽的分割线-------------------------------------------
注:上述中使用的bg.jpg为下图

本文介绍了词云技术的基本概念及其在文本数据可视化中的作用,并通过一个实际案例展示了如何使用Python生成词云来提取并展示特定餐厅评论中的关键词。

1689


被折叠的 条评论
为什么被折叠?



