【03】基础:同种网页结构套用采集规则

请先安装爬虫软件。爬虫软件安装

经过上个教程小试牛刀之后就可以尝到获得数据的喜悦了。

回顾一下,上个教程主要了解了MS谋数台的工作职责-定义采集规则,测试规则无误之后点击MS谋数台右上角的“爬数据”后弹出DS打数机,然后看到打数机窗口正在马不停蹄地抓取数据。这两个部件的工作配合地很紧密。

在学会将xml文件转成Excel之前,先解决当下的一个疑问?如果要采集其他博主主页的微博,是要重新做过规则吗?非也~

用MS谋数台制定采集规则用了一个样本网址,既然是样本,可想而知,与样本相同结构的网页,都可以套用该规则进行采集了。

为一个采集规则添加一个相同结构的网址就是给该规则添加一个线索。

以后用该规则抓取数据的时候就会运行所有的线索而不仅仅是样本网址。

前一个教程采集微博博主主页是将宝宝主页的网址作为样本网址来制定采集规则的。宝宝之前参加过很火的《奔跑吧兄弟》,现在我想采集兄弟团所有成员的微博主页,只要将他们主页网址当成新的线索添加给之前做的“weibo_博主主页”采集规则就OK了。

怎么添加线索?

第一季兄弟团各个成员的主页网址如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值