采集图片有重复,一个技巧解决

        采集数据正文中每张图片都重复了,且两张重复图片还相连着,但是浏览原文章是正常的。

        其实原文也是有两张重复的图片,只是其中一张被隐藏了(隐藏的图片一般是用于不支持脚本的浏览器情况),解决方法也不难, 在简数采集器只需要两步设置便可以解决图片重复的问题。

在文章页采集规则的设置界面:

1. 打开content字段的设置 ==》在【HTML标签过滤】处,勾上过滤部分html标签,再勾上保留noscript标签,最后点击保存;

2. 切换到【HTML标签删除】,设置删除全部noscript标签,删除个数不填写,保存设置;

3. 点击测试采集按钮查看采集结果,发现图片没有重复了,就可以启动任务批量采集或者定时自动采集了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值