【Python】使用Scrapy 网络爬虫框架Demo

本文详细介绍了如何使用Scrapy框架进行网络爬虫开发,从安装Scrapy、使用shell调试工具、创建Scrapy项目,到Scrapy的开发步骤,包括定义Item类、编写Spider类、设置pipelines以及启动Spider。特别提到了处理网页防爬机制的方法,并展示了如何在PyCharm中操作。

安装

使用PyCharm安装,进入到PyCharm -> Preferences -> Project Interpreter,点击加号
在这里插入图片描述
查询框输入‘Scrapy’,点击‘Install Package’
在这里插入图片描述

使用shell调试工具

  1. 使用Scrapy提供的shell调试工具来抓取网页信息, 以爬取我的博客为例,如下
MAC-53796:PycharmProjects gcui$ scrapy shell https://blog.csdn.net/galen2016
...
...
...
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x10672f050>
[s]   item       {
   
   }
[s]   request    <GET https://blog.csdn.net/galen2016>
[s]   response   <200 https://blog.csdn.net/galen2016>
[s]   settings   <scrapy.settings.Settings object at 0x106817090>
[s]   spider     <DefaultSpider 'default' at 0x106bab490>
[s] Useful shortcuts:
[s]   fetch(url<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值