scrapy item.py

本文详细介绍了Scrapy爬虫框架中Item的使用方法,包括定义、导入及实例化过程,以及如何通过XPath提取数据并存储到Item字段中。

1.概念

1.即提前规划好哪些字段需要抓,防止手误,因为定义好之后,在运行过程中,系统会自动检查
2.在目标字段少的时候可以使用字典代替
3.使用scrapy的一些特定组件需要Item做支持,如scrapy的ImagesPipeline管道类

2.语法

在items.py文件中定义要提取的字段:
1)定义

class MyspiderItem(scrapy.Item): 
    name = scrapy.Field()   # 讲师的名字
    title = scrapy.Field()  # 讲师的职称
    desc = scrapy.Field()   # 讲师的介绍

2)导入

item定义以后需要在爬虫中导入并且实例化,之后的使用方法和使用字典相同
python中的导入路径要诀:从哪里开始运行,就从哪里开始导入

job.py:

from myspider.items import MyspiderItem   # 导入Item,注意路径
...
    def parse(self, response)
        item = MyspiderItem() # 实例化后可直接使用
        item['name'] = node.xpath('./h3/text()').extract_first()
        item['title'] = node.xpath('./h4/text()').extract_first()
        item['desc'] = node.xpath('./p/text()').extract_first()
        yield item # 将结果交给引擎,送给pipeline
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值