scrapy - 在spider中添加自己log函数

本文介绍了如何在Scrapy爬虫项目中添加自定义的日志函数,以实现个性化报告,包括针对不同爬取分支的独立日志文件,自定义报告等级,以及一个接收三个参数的函数来实现这一功能。代码实现简单,适合作为记录和调试的文件记录手段。

前言

scrapy框架提供了一些报告等级,但是要做到在爬取过程中实现自己的个性化报告方式,还是要自行添加log函数。

分析

需求:

  1. 在一个spider项目中,涉及十数个分支的爬取,希望存储到不同的log文件下。
  2. 可以拥有自定义的报告等级,例如区分是主页还是分支页产生的报告。
  3. 自定义报告信息

综上,应该是一个拥有三个输入参数的函数。

代码实现

具体的代码实现很简单,以下是作为spider中的一个类方法的代码:

	# 在定义类前引入time库
    import time

	# 这里应该作为全局变量
    spider_log_path = './log.log'    # spider 等级日志路径
    infobase_dir_path = './Infobase'  # parse 等级日志路径头
    path_title_list = []    # 分支标题列表

	# 定义一个方法
    def ilog(self, level, id, info):
        # 该条日志存储时间
        log_time = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
        # if...else...结构进行日志等级判断
        if level == 'spider':
            path = self.spider_log_path
            line = log_time + '\t[' + self.name + 'Spider]\t' + info + '\n'
        elif level == 'parse':
            # 区分路径实现分支log各自保存
            path = self.infobase_dir_path + '/' + \
                self.path_title_list[id] + '.log'
            # example: ./Infobase 年-月-日 时.分/<分支名称>.log
            line = log_time + '\t' + info + '\n'
        # 写入
        with open(path, 'a', encoding='utf-8') as f:
            f.write(line)

调用:

ilog(报告等级, 分支id, 日志内容)
  • 其实这个功能通用性很差,很有必要根据自己的需求修改。
  • 个人认为可以作为记录或者debug的一种很好的文件记录方式,比直接使用print输出在cmd界面要好。
  • 这种方法可以留档,而且易于检索。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值