scrapy - 在spider中添加自己log函数

最新推荐文章于 2023-02-25 22:42:14 发布

原创最新推荐文章于 2023-02-25 22:42:14 发布 · 1.1k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#scrapy #spider #log #自定义日志

scrapy 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了如何在Scrapy爬虫项目中添加自定义的日志函数，以实现个性化报告，包括针对不同爬取分支的独立日志文件，自定义报告等级，以及一个接收三个参数的函数来实现这一功能。代码实现简单，适合作为记录和调试的文件记录手段。

前言

scrapy框架提供了一些报告等级，但是要做到在爬取过程中实现自己的个性化报告方式，还是要自行添加log函数。

分析

需求：

在一个spider项目中，涉及十数个分支的爬取，希望存储到不同的log文件下。
可以拥有自定义的报告等级，例如区分是主页还是分支页产生的报告。
自定义报告信息

综上，应该是一个拥有三个输入参数的函数。

代码实现

具体的代码实现很简单，以下是作为spider中的一个类方法的代码：

	# 在定义类前引入time库
    import time

	# 这里应该作为全局变量
    spider_log_path = './log.log'    # spider 等级日志路径
    infobase_dir_path = './Infobase'  # parse 等级日志路径头
    path_title_list = []    # 分支标题列表

	# 定义一个方法
    def ilog(self, level, id, info):
        # 该条日志存储时间
        log_time = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
        # if...else...结构进行日志等级判断
        if level == 'spider':
            path = self.spider_log_path
            line = log_time + '\t[' + self.name + 'Spider]\t' + info + '\n'
        elif level == 'parse':
            # 区分路径实现分支log各自保存
            path = self.infobase_dir_path + '/' + \
                self.path_title_list[id] + '.log'
            # example: ./Infobase 年-月-日 时.分/<分支名称>.log
            line = log_time + '\t' + info + '\n'
        # 写入
        with open(path, 'a', encoding='utf-8') as f:
            f.write(line)

调用：

ilog(报告等级, 分支id, 日志内容）

其实这个功能通用性很差，很有必要根据自己的需求修改。
个人认为可以作为记录或者debug的一种很好的文件记录方式，比直接使用print输出在cmd界面要好。
这种方法可以留档，而且易于检索。