R语言txt文件自定义词云图

最新推荐文章于 2026-06-23 12:42:22 发布

原创最新推荐文章于 2026-06-23 12:42:22 发布 · 3.7k 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#1024程序员节

R语言同时被 2 个专栏收录

1 篇文章

订阅专栏

词云图

1 篇文章

订阅专栏

本文介绍了如何使用R语言从txt文本中获取数据，进行词频统计，并利用jiebaR和wordcloud2包创建自定义词云图，特别是结合排球少年的图片，提供了一个完整的R语言词云图制作流程。

在R语言中获取txt文件文本，并进行词频统计，然后自定义词云图。

先获取txt文本

wordfreqs = read.table("E:\\Python实训\\哔哩哔哩弹幕爬取\\dan_mu.txt"
                       ,encoding = "UTF-8")

这是事先用python爬虫准备好的B站番剧（排球少年）弹幕文本（当然也可以先自定义文本进行测试）。

停止词

readLines("E:\\数据处理\\PyDataPreprocessing-master\\Files\\NLPIR_stopwords.txt"
          )

work <- worker(stop_word = "E:\\数据处理\\PyDataPreprocessing-master\\Files\\NLPIR_stopwords.txt"
)

这也是准备好的停止词词库，用于帮助jiebaR更好的统计词频

统计词频

seg <- segment(wordfreqs[,1],work)

seg <- freq(seg)  //用于统计词频 
 
seg <- seg[order(-seg[,2]),]  // 让它倒序排序 

seg <- seg[1:100,c(1,2)]  // 限制输出词的数量，只输出100个。

词云图

最后就是用自己选取的图片进行制作词云图了，就是用wordcloud2，然后更换词库就行了。
记得图片要选取黑白尽量分明的，方便R语言识别。

wordcloud2(seg,size = 1,figPath = "D:\\Picture\\飛心\\Hinata.jpg")

这里我们采用排球少年里的一张图
请添加图片描述

完整代码如下。
请添加图片描述
效果如图

结语
好了，自定义的词云图就制作成功了，最后需要注意的就是停止词的引用，以及在统计词频，排序输出时的理解，这样一来就大功告成了。