-
本人爬虫萌新,代码是网上搜了很多示例(很多看不懂,有些也跑不了了),摸摸索索了两天才扒拉下来的,文中代码也非常简单
甚至没有设置headers,如有问题请指正,非常感谢! -
浏览完整代码请直接拖动到底部。
-
工具:Jupyter notebook, Chrome
-
第一步:确定你要爬的是哪条微博的热评,比如这个:

确定了之后我们就进入https://m.weibo.cn/,把这条找出来。

这个时候看它的url,把后面的数字串记住,那是每条微博独有的标识,之后就可以直接带入代码了!
- 第二步:把这个页面的信息扒拉下来
import requests
import json
url = "https://m.weibo.cn/api/comments/show?id=&page=1" #这个地址是个模板,id=后面粘贴上刚才找到的数字串标识
#print(url)
content = requests.get(url)
content = content.text #获取页面内容
content = json.loads(content) #微博评论是用ajax加载的
content = str(content) #转为string,因为待会儿用正则查找图片的时候需要它为string格式
print

本文是一位爬虫新手分享如何使用Python爬取微博评论区的热评配图。通过确定微博URL,抓取页面信息,筛选图片地址,最终将图片保存至本地。虽然代码简单,但涉及到了网页抓取的基础步骤。目前仅能抓取单条微博的热评,全评论的爬取尚待解决。同时,作者希望学习如何查看并使用headers中的authorization。

568

被折叠的 条评论
为什么被折叠?



