前言
scrapy框架提供了一些报告等级,但是要做到在爬取过程中实现自己的个性化报告方式,还是要自行添加log函数。
分析
需求:
- 在一个spider项目中,涉及十数个分支的爬取,希望存储到不同的log文件下。
- 可以拥有自定义的报告等级,例如区分是主页还是分支页产生的报告。
- 自定义报告信息
综上,应该是一个拥有三个输入参数的函数。
代码实现
具体的代码实现很简单,以下是作为spider中的一个类方法的代码:
# 在定义类前引入time库
import time
# 这里应该作为全局变量
spider_log_path = './log.log' # spider 等级日志路径
infobase_dir_path = './Infobase' # parse 等级日志路径头
path_title_list = [] # 分支标题列表
# 定义一个方法
def ilog(self, level, id, info):
# 该条日志存储时间
log_time = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
# if...else...结构进行日志等级判断
if level == 'spider':
path = self.spider_log_path
line = log_time + '\t[' + self.name + 'Spider]\t' + info + '\n'
elif level == 'parse':
# 区分路径实现分支log各自保存
path = self.infobase_dir_path + '/' + \
self.path_title_list[id] + '.log'
# example: ./Infobase 年-月-日 时.分/<分支名称>.log
line = log_time + '\t' + info + '\n'
# 写入
with open(path, 'a', encoding='utf-8') as f:
f.write(line)
调用:
ilog(报告等级, 分支id, 日志内容)
- 其实这个功能通用性很差,很有必要根据自己的需求修改。
- 个人认为可以作为记录或者debug的一种很好的文件记录方式,比直接使用print输出在cmd界面要好。
- 这种方法可以留档,而且易于检索。
本文介绍了如何在Scrapy爬虫项目中添加自定义的日志函数,以实现个性化报告,包括针对不同爬取分支的独立日志文件,自定义报告等级,以及一个接收三个参数的函数来实现这一功能。代码实现简单,适合作为记录和调试的文件记录手段。

799

被折叠的 条评论
为什么被折叠?



