1. pycharm中运行scrapy
- windows环境下cmd中通过scrapy startproject 项目名,创建scrapy项目
- 修改Run…中的Script path为cmdline.py文件路径F:\programs\python\Lib\site-packages\scrapy\cmdline.py
- Parameters为crawl 爬虫文件名
- working directory为scrapy项目所在文件夹
- 每次执行该run命令即可运行scrapy
2.爬虫目标
通过上一篇requests构建的同步爬虫获取页面下所有子链接,本篇通过异步scrapy框架分别爬取各链接的主要内容
scrapy框架的使用需要修改其自动生成的四个文件settings.py, items.py, pipelines.py 和自定义的爬虫代码mycsdn.py
- 其中settings.py文件的修改因人而异,主要修改其余三个文件
3.items.py
class Csdn02Item(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()#标题
updatetime = scrapy.Field()#发表时间
readcount = scrapy.Field()#阅读数
author = scrapy

本文介绍了如何在PyCharm中运行Scrapy项目,目标是利用Scrapy异步框架抓取多个URL的内容。首先通过`scrapy startproject`创建项目,然后修改Run配置,接着详细讲述了items.py、pipelines.py和自定义爬虫mycsdn.py的修改过程,以实现从上一篇requests爬虫获取的子链接中提取主要内容。

2808

被折叠的 条评论
为什么被折叠?



