目的
作为一个挂了几套公寓在airbnb上的小房东,又作为一个喜欢分析数据的小孩子,当学习爬虫的过程中当然要选择爱彼迎这个网站来试手;在网上看到一个大神po的一长串的代码,用了之后的确可以马上爬取,但爬到的内容不是我想要的,而且我总感觉复杂了很多,于是我开始用我现有的知识来进行爬取;
方法
库:requests lxml
1.分析网页url构建17页的url代码
很容易发现规律url=‘https://www.airbnb.cn/s/chengdu/homes?query=chengdu&items_offset=’+{0,18,36.....}
2.分析网页我们需要的xpath路径
通过审查元素 我们想要的路径为
公寓名://div[@class=’_qhtkbey’]/text()
评价数:///div[2]/div[1]/div/span[2]/text()#我期望用评价数来作为房源的销售热度来进行分析,因为airbnb并不会显示交易量
显示价格:///div[2]/div[2]/div/div/div[1]/div/span/span/span/span[1]/span[2]/text()
房源类型://*/div[2]/a/div/div[1]/div/span/span/text()
这里我提一下,当时我发现爬取出来的公寓名的数量和房源类型这些匹配不上,后来发现原来是没有plus房源的名字信息,在名称这一块plus房源和普通房源的路径不在

本文介绍了一位房东使用Python爬虫获取Airbnb成都房源信息的过程,包括利用requests和lxml库解析URL和XPath路径。分析发现,整套公寓房型占比大,1室房源较多,评价数可反映房源销售热度,特定设施的房源价格和销量较高,而远离市区的高新区和机场也有高价热卖房源。

5782

被折叠的 条评论
为什么被折叠?



