采集数据没有排版分段一般是由以下两个问题造成的:
1. 没有保留Html标签
采集数据的正文内容全都连在一起,没有分段,没有排版和没有图片,是因为正文字段设置有错误,没有保留Html标签导致的,解决方法如下:
例如在简数采集器详情提取器,打开正文字段的字段设置,点击【HTML标签过滤】选项 --》先确认勾上【获取html】,这样才会有排版和图片 --》勾上【过滤部分html标签】选项,屏蔽掉一部分多余的HTML标签和属性 --》勾上【层<div】选项,有些网站是用div标签作为分段 --》保存,测试采集一条数据,查看是否正常,再启动批量采集。

2. 组合为采集内容
采集数据的正文内容连成一大块,没有分段,该分段的位置是逗号,图片正常显示,这种情况一般是由于正文字段选择多块区域组合为采集内容(即选择多值),多值默认分隔符是逗号,修改分隔符可以解决:
例如在简数的任务详情提取器,打开正文字段的字段设置,点击【高级提取】选项 --》在【多值分隔字符】处填写换行标签<br> --》保存,测试采集一条数据,查看是否正常,再启动批量采集。

采集内容没有格式排版大部分都是以上两个原因造成的,了解问题所在,解决起来就事半功倍了!
文章讲述了采集数据时遇到的无排版问题,主要源于未保留HTML标签和多值字段的逗号分隔。提供了解决方案,如启用HTML获取、过滤标签和调整多值分隔符。

1313

被折叠的 条评论
为什么被折叠?



