采集数据正文中每张图片都重复了,且两张重复图片还相连着,但是浏览原文章是正常的。
其实原文也是有两张重复的图片,只是其中一张被隐藏了(隐藏的图片一般是用于不支持脚本的浏览器情况),解决方法也不难, 在简数采集器只需要两步设置便可以解决图片重复的问题。
在文章页采集规则的设置界面:
1. 打开content字段的设置 ==》在【HTML标签过滤】处,勾上过滤部分html标签,再勾上保留noscript标签,最后点击保存;

2. 切换到【HTML标签删除】,设置删除全部noscript标签,删除个数不填写,保存设置;

3. 点击测试采集按钮查看采集结果,发现图片没有重复了,就可以启动任务批量采集或者定时自动采集了。

4万+

被折叠的 条评论
为什么被折叠?



