思来想去,虽然很忙,但还是挤时间针对这次肺炎疫情写个Python大数据分析系列博客,包括网络爬虫、可视化分析、GIS地图显示、情感分析、舆情分析、主题挖掘、威胁情报溯源、知识图谱、预测预警及AI和NLP应用等。希望该系列线上远程教学对您有所帮助,也希望早点战胜病毒,武汉加油、湖北加油、全国加油。待到疫情结束樱花盛开,这座英雄的城市等你们来。
首先说声抱歉,最近一直忙着学习安全知识,其他系列文章更新较慢,已经有一些人催更了,哈哈。言归正传,前文分享了腾讯疫情实时数据抓取,结合PyEcharts绘制地图、折线图、柱状图。这篇文章将爬取疫情相关的新闻数据,接着进行中文分词处理及文本聚类、LDA主题模型分析。希望这篇可视化分析文章对您有所帮助,也非常感谢参考文献中老师的分享,一起加油,战胜疫情!如果您有想学习的知识或建议,可以给作者留言~




代码下载地址:https://github.com/eastmountyxz/Wuhan-data-analysis
CSDN下载地址:https://download.csdn.net/download/Eastmount/12239638
文章目录
同时推荐前面作者另外五个Python系列文章。从2014年开始,作者主要写了三个Python系列文章,分别是基础知识、网络爬虫和数据分析。2018年陆续增加了Python图像识别和Python人工智能专栏。
- Python基础知识系列:Python基础知识学习与提升
- Python网络爬虫系列:Python爬虫之Selenium+BeautifulSoup+Requests
- Python数据分析系列:知识图谱、web数据挖掘及NLP
- Python图像识别系列:Python图像处理及图像识别
- Python人工智能系列:Python人工智能及知识图谱实战

本文介绍了如何使用Python进行疫情新闻的抓取、中文分词、词云可视化、TF-IDF计算、KMeans文本聚类、层次聚类和LDA主题模型分析。通过结巴分词进行预处理,利用WordCloud生成词云,使用Scikit-Learn进行TF-IDF计算和KMeans聚类,并借助LDA进行主题分布分析。
订阅专栏 解锁全文
1863

被折叠的 条评论
为什么被折叠?



