python Scrapy 常见问题记录

本文介绍了解决在Windows环境下使用Scrapy爬虫时遇到的win32api模块缺失问题,提供了安装pypiwin32模块的解决方案。同时,详细讲解了如何使用Scrapy命令保存爬取的数据到CSV或JSON文件,并解决了CSV文件乱码问题。

 

 

ImportError: No module named win32api

 

处理办法

windows系统上出现这个问题的解决需要安装Py32Win模块,但是直接通过官网链接装exe会出现几百个错误,更方便的做法是

pip install pypiwin32

 

 

执行scrapy 时 如果要将爬取得数据保存起来,可以 使用命令

 

scrapy crawl  spiderName -o 文件名.格式

scrapy crawl HuibeiSpider -o hubei_info.csv

 

生成的csv 文件打开会出现乱码,

原因是  默认python生成的csv是 UTF-8无BOM编码 

处理办法

简单来说,用notepad+打开csv,然后修改csv文件格式为 UTF-8编码。

默认python生成的csv是 UTF-8无BOM编码


复杂的方法是自己去扩展scrapy的csv序列化,改成UTF-8编码创建csv

 

 

 

scrapy crawl firstSpider -o items.json

新生成的文件存放到了项目更目录下

 

 

解决办法

 加上代码

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

 

 

 

 

转载于:https://www.cnblogs.com/BlueSkyyj/p/7664215.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值