利用Python爬虫获取招聘网站职位信息

本文介绍了如何使用Python爬虫配合webdriver从Boss直聘获取北京地区销售岗位的招聘信息。通过分析网页地址变化规律,利用selenium获取网页源代码,再用BeautifulSoup解析HTML,提取职位和薪资等关键信息。

当你学会使用Python爬虫之后就会发现想要得到某些数据再也不用自己费力的去寻找,今天小千就给大家介绍一个很实用的爬虫案例,获取Boss直聘上面的招聘信息,同学们一起来学习一下了。

Boss直聘爬虫案例

这次我们以北京地区的销售岗位为案例,打开Boss直聘搜索【销售】,但是很遗憾boss直聘的反爬措施不能直接使用requests库获取信息,所以采用webdriver自动化方式获取网页源代码。

webdriver的使用需要:pip3 install selenium、配置chrome浏览器的chrome driver。
在这里插入图片描述

点击了多页之后,发现地址栏的地址变化如下:
在这里插入图片描述

所以我们就发现了地址的规律变化,因此代码如下:
在这里插入图片描述

此时执行代码,发现htmls_list中有好多的数据。这下也就放心了,说明我们获取到了网页的数据。有了数据我们就开始遍历htmls_list,因为htmls_list存放着多页的数据,我们要一页一页的获取并提取里面的职位、薪资等信息。提取的过程我们使用的是BeautifulSoup,具体的使用说明这里不在赘述。

使用BeautifulSoup提取的数据我们都存放在job_list=[]这个列表中。页面分析如下:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值