采集网页数据保留原排版技巧

文章讲述了采集数据时遇到的无排版问题,主要源于未保留HTML标签和多值字段的逗号分隔。提供了解决方案,如启用HTML获取、过滤标签和调整多值分隔符。

采集数据没有排版分段一般是由以下两个问题造成的:

1. 没有保留Html标签

2. 组合为采集内容


1. 没有保留Html标签

采集数据的正文内容全都连在一起,没有分段,没有排版和没有图片,是因为正文字段设置有错误,没有保留Html标签导致的,解决方法如下:

例如在简数采集器详情提取器,打开正文字段的字段设置,点击【HTML标签过滤】选项 --》先确认勾上【获取html】,这样才会有排版和图片 --》勾上【过滤部分html标签】选项,屏蔽掉一部分多余的HTML标签和属性 --》勾上【层<div】选项,有些网站是用div标签作为分段 --》保存,测试采集一条数据,查看是否正常,再启动批量采集。

2. 组合为采集内容

采集数据的正文内容连成一大块,没有分段,该分段的位置是逗号,图片正常显示,这种情况一般是由于正文字段选择多块区域组合为采集内容(即选择多值),多值默认分隔符是逗号,修改分隔符可以解决:

例如在简数的任务详情提取器,打开正文字段的字段设置,点击【高级提取】选项 --》在【多值分隔字符】处填写换行标签<br> --》保存,测试采集一条数据,查看是否正常,再启动批量采集。

采集内容没有格式排版大部分都是以上两个原因造成的,了解问题所在,解决起来就事半功倍了!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值