1.概念
1.即提前规划好哪些字段需要抓,防止手误,因为定义好之后,在运行过程中,系统会自动检查
2.在目标字段少的时候可以使用字典代替
3.使用scrapy的一些特定组件需要Item做支持,如scrapy的ImagesPipeline管道类
2.语法
在items.py文件中定义要提取的字段:
1)定义
class MyspiderItem(scrapy.Item):
name = scrapy.Field() # 讲师的名字
title = scrapy.Field() # 讲师的职称
desc = scrapy.Field() # 讲师的介绍
2)导入
item定义以后需要在爬虫中导入并且实例化,之后的使用方法和使用字典相同
python中的导入路径要诀:从哪里开始运行,就从哪里开始导入
job.py:
from myspider.items import MyspiderItem # 导入Item,注意路径
...
def parse(self, response)
item = MyspiderItem() # 实例化后可直接使用
item['name'] = node.xpath('./h3/text()').extract_first()
item['title'] = node.xpath('./h4/text()').extract_first()
item['desc'] = node.xpath('./p/text()').extract_first()
yield item # 将结果交给引擎,送给pipeline
本文详细介绍了Scrapy爬虫框架中Item的使用方法,包括定义、导入及实例化过程,以及如何通过XPath提取数据并存储到Item字段中。

5197

被折叠的 条评论
为什么被折叠?



