学习笔记第十四篇之知乎社交网络分析

本项目通过爬取知乎网站数据,分析了2.6万名用户的关注关系及72万个问题的统计特性,探讨了知乎社交网络的总体特征、连接分析及热点话题。

     今天老师让分析一个关于知乎社交网络内容分析的项目。使用的是https://www.jianshu.com/p/3b2a1895a12d中的例子。该项目主要是根据知乎网站的用户的关注关系来分析知乎社交网络的。使用的数据包含:2.6万名用户,461条关注连接,72万个问题。数据下载在这里点击打开链接,实现代码在这里点击打开链接。文章分析了知乎社交数据的统计关系,网络的总体特征,网络连接分析和热点话题分析。

      代码中

  • crawler文件夹:爬虫部分,以广度优先策略爬取知乎数据,并以csv格式储存(这一部分代码目前版本有误,爬到的数据文件与zhihu_database.py无法衔接,此外存在topic爬漏的问题,待修复)
  • zhihu_schema.sql:SQLite数据库的schema
  • zhihu_database.py:将csv中的数据导入至数据库中
  • zhihu_analysis.py:从数据库中提取数据并进行分析。(运行该程序就可以得到实验结果,注意zhihu.db文件的路径)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值