excel上图:

爬虫跑的结果,上图:

那么问题出现了,每一组数据都确定是爬下来的,为什么单单这几行没有呢?百度没有看到任何相似问题,只好自己写了。观察发现,这几组数据是不完整的,少了一列,且恰恰是这一列爬到的数据是不完全正确的(既有片长又有上映年份)于是明确两点:(1)对于数据部分缺失的问题,我们想要的结果并不是直接舍弃整组数据,而是有多少要多少(2)对于爬到的数据不准确的问题,当然是规则设置上出问题了,so现在去修改代码吧~
在使用爬虫抓取数据时遇到数据缺失和不完整的问题,特别是某列数据的缺失导致部分数据无法完整呈现。通过对数据进行分析,明确了数据部分缺失和数据不准确的两个关键问题,并提出了解决方案。
excel上图:

爬虫跑的结果,上图:

那么问题出现了,每一组数据都确定是爬下来的,为什么单单这几行没有呢?百度没有看到任何相似问题,只好自己写了。观察发现,这几组数据是不完整的,少了一列,且恰恰是这一列爬到的数据是不完全正确的(既有片长又有上映年份)于是明确两点:(1)对于数据部分缺失的问题,我们想要的结果并不是直接舍弃整组数据,而是有多少要多少(2)对于爬到的数据不准确的问题,当然是规则设置上出问题了,so现在去修改代码吧~
4013
1273

被折叠的 条评论
为什么被折叠?
