文章目录
本文为博主九师兄(QQ:541711153 欢迎来探讨技术)原创文章,未经允许博主不允许转载。
0.美图

1. chinese.misc安装与数据准备
这篇文章改了好多次,因为写了很多敏感词。下面会去掉,看不懂算了。
1、安装与依赖加载
chinese.misc已经提交CRAN所以可以直接install。
同时注意,R的版本一定要3.3.2以上!
install.packages('chinese.misc')
library(chinese.misc)
library(tm)
library(jiebaR)
2.为什么会出现chinese.misc
参考官网:https://github.com/githubwwwjjj/chinese.misc
假设有一个需求,我有一批文件是一个月内3000篇博客,老板说,这几天博客一下子多了很多文章啊,我不懂技术,难道前沿科技又出现什么牛逼的技术了吗?导致大家都在讨论,那个小陈你给我写个算法中午我要知道,看看大家都讨论了什么?
小陈吭哧坑次,把网站一个月的文章,从后台数据库,拿出来了,然后3000篇,
本文介绍了R语言中的chinese.misc包,该包旨在简化中文文本分析过程,包括自动检测编码、分词、文本清理、去除停用词等。通过实例展示了如何快速生成文档-词项矩阵,并进行文本清洗和词频统计,适用于初学者和有经验的用户。chinese.misc包还提供文件管理、数据类型转换等功能。
订阅专栏 解锁全文

2663

被折叠的 条评论
为什么被折叠?



