一个特别无语的一个爬虫问题
最新推荐文章于 2026-06-23 15:55:33 发布
在爬取百家号文章内容时遇到编码问题,尽管网页声明编码为UTF-8,爬虫设置也为UTF-8,但仍出现乱码。通过检查发现,问题在于请求头(header)中可能包含导致乱码的设置。移除requests.get()方法中header的部分后,乱码问题得到解决,内容恢复为中文字符。
在爬取百家号文章内容时遇到编码问题,尽管网页声明编码为UTF-8,爬虫设置也为UTF-8,但仍出现乱码。通过检查发现,问题在于请求头(header)中可能包含导致乱码的设置。移除requests.get()方法中header的部分后,乱码问题得到解决,内容恢复为中文字符。
230

被折叠的 条评论
为什么被折叠?
