【Python】使用Scrapy 网络爬虫框架Demo

原创

已于 2022-02-25 16:32:26 修改 · 2k 阅读

标签

#python #爬虫 #pycharm #Scrapy

收录于

于 2022-02-25 15:25:09 首次发布

本文详细介绍了如何使用Scrapy框架进行网络爬虫开发，从安装Scrapy、使用shell调试工具、创建Scrapy项目，到Scrapy的开发步骤，包括定义Item类、编写Spider类、设置pipelines以及启动Spider。特别提到了处理网页防爬机制的方法，并展示了如何在PyCharm中操作。

安装

使用PyCharm安装，进入到PyCharm -> Preferences -> Project Interpreter，点击加号
在这里插入图片描述
查询框输入‘Scrapy’，点击‘Install Package’

使用shell调试工具

使用Scrapy提供的shell调试工具来抓取网页信息, 以爬取我的博客为例，如下

MAC-53796:PycharmProjects gcui$ scrapy shell https://blog.csdn.net/galen2016
...
...
...
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x10672f050>
[s]   item       {
   
   }
[s]   request    <GET https://blog.csdn.net/galen2016>
[s]   response   <200 https://blog.csdn.net/galen2016>
[s]   settings   <scrapy.settings.Settings object at 0x106817090>
[s]   spider     <DefaultSpider 'default' at 0x106bab490>
[s] Useful shortcuts:
[s]   fetch(url<