安装
使用PyCharm安装,进入到PyCharm -> Preferences -> Project Interpreter,点击加号

查询框输入‘Scrapy’,点击‘Install Package’

使用shell调试工具
- 使用Scrapy提供的shell调试工具来抓取网页信息, 以爬取我的博客为例,如下
MAC-53796:PycharmProjects gcui$ scrapy shell https://blog.csdn.net/galen2016
...
...
...
[s] Available Scrapy objects:
[s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s] crawler <scrapy.crawler.Crawler object at 0x10672f050>
[s] item {
}
[s] request <GET https://blog.csdn.net/galen2016>
[s] response <200 https://blog.csdn.net/galen2016>
[s] settings <scrapy.settings.Settings object at 0x106817090>
[s] spider <DefaultSpider 'default' at 0x106bab490>
[s] Useful shortcuts:
[s] fetch(url<

本文详细介绍了如何使用Scrapy框架进行网络爬虫开发,从安装Scrapy、使用shell调试工具、创建Scrapy项目,到Scrapy的开发步骤,包括定义Item类、编写Spider类、设置pipelines以及启动Spider。特别提到了处理网页防爬机制的方法,并展示了如何在PyCharm中操作。

1万+

被折叠的 条评论
为什么被折叠?



