关于爬虫在部署或爬取时编码报错问题的解决

最新推荐文章于 2025-11-21 06:54:04 发布

原创

最新推荐文章于 2025-11-21 06:54:04 发布 · 847 阅读

标签

#爬虫 #部署爬虫 #gbk编码 #编码报错 #源码修改

收录于

本文详细介绍了在使用Scrapy爬虫时遇到的编码错误问题，特别是当爬取的网页为gbk格式，而Python默认使用utf-8格式时出现的UnicodeDecodeError。文章提供了具体的错误信息和源代码修改方案，通过将文件读取的编码方式从默认改为明确指定为utf-8，成功解决了这一问题。

在用scrapy爬虫的时候，有时直接去爬是没有编码报错的，或者直接报编码出错，类似的是：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xaf in position 235: illegal multibyte sequence
因为当前爬取的网页是gbk格式的，而Python里面是utf-8格式的
这个时候可能会有下面类似的提示：

Traceback (most recent call last):
  File "D:\python\lib\runpy.py", line 193, in _run_module_as_main
    "__main__", mod_spec)
  File "D:\python\lib\runpy.py", line 85,