R语言txt文件自定义词云图

本文介绍了如何使用R语言从txt文本中获取数据,进行词频统计,并利用jiebaR和wordcloud2包创建自定义词云图,特别是结合排球少年的图片,提供了一个完整的R语言词云图制作流程。

在R语言中获取txt文件文本,并进行词频统计,然后自定义词云图。

先获取txt文本

wordfreqs = read.table("E:\\Python实训\\哔哩哔哩弹幕爬取\\dan_mu.txt"
                       ,encoding = "UTF-8")

这是事先用python爬虫准备好的B站番剧(排球少年)弹幕文本(当然也可以先自定义文本进行测试)。

停止词

readLines("E:\\数据处理\\PyDataPreprocessing-master\\Files\\NLPIR_stopwords.txt"
          )

work <- worker(stop_word = "E:\\数据处理\\PyDataPreprocessing-master\\Files\\NLPIR_stopwords.txt"
)

这也是准备好的停止词词库,用于帮助jiebaR更好的统计词频

统计词频

seg <- segment(wordfreqs[,1],work)

seg <- freq(seg)  //用于统计词频 
 
seg <- seg[order(-seg[,2]),]  // 让它倒序排序 

seg <- seg[1:100,c(1,2)]  // 限制输出词的数量,只输出100个。

词云图

最后就是用自己选取的图片进行制作词云图了,就是用wordcloud2,然后更换词库就行了。
记得图片要选取黑白尽量分明的,方便R语言识别。

wordcloud2(seg,size = 1,figPath = "D:\\Picture\\飛心\\Hinata.jpg")

这里我们采用排球少年里的一张图
请添加图片描述

完整代码如下。
请添加图片描述
效果如图
请添加图片描述
结语
好了,自定义的词云图就制作成功了,最后需要注意的就是停止词的引用,以及在统计词频,排序输出时的理解,这样一来就大功告成了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值