在用scrapy爬虫的时候,有时直接去爬是没有编码报错的,或者直接报编码出错,类似的是:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xaf in position 235: illegal multibyte sequence
因为当前爬取的网页是gbk格式的,而Python里面是utf-8格式的
这个时候可能会有下面类似的提示:
Traceback (most recent call last):
File "D:\python\lib\runpy.py", line 193, in _run_module_as_main
"__main__", mod_spec)
File "D:\python\lib\runpy.py", line 85,

本文详细介绍了在使用Scrapy爬虫时遇到的编码错误问题,特别是当爬取的网页为gbk格式,而Python默认使用utf-8格式时出现的UnicodeDecodeError。文章提供了具体的错误信息和源代码修改方案,通过将文件读取的编码方式从默认改为明确指定为utf-8,成功解决了这一问题。

351

被折叠的 条评论
为什么被折叠?



