airbnb爱彼迎python爬虫与简单分析

最新推荐文章于 2023-03-26 16:03:01 发布

原创

最新推荐文章于 2023-03-26 16:03:01 发布 · 5.2k 阅读

标签

#python #airbnb #数据分析 #数据科学 #爬虫

收录于

本文介绍了一位房东使用Python爬虫获取Airbnb成都房源信息的过程，包括利用requests和lxml库解析URL和XPath路径。分析发现，整套公寓房型占比大，1室房源较多，评价数可反映房源销售热度，特定设施的房源价格和销量较高，而远离市区的高新区和机场也有高价热卖房源。

目的

作为一个挂了几套公寓在airbnb上的小房东，又作为一个喜欢分析数据的小孩子，当学习爬虫的过程中当然要选择爱彼迎这个网站来试手；在网上看到一个大神po的一长串的代码，用了之后的确可以马上爬取，但爬到的内容不是我想要的，而且我总感觉复杂了很多，于是我开始用我现有的知识来进行爬取；

方法

库：requests lxml
1.分析网页url构建17页的url代码
很容易发现规律url=‘https://www.airbnb.cn/s/chengdu/homes?query=chengdu&items_offset=’+{0,18,36.....}
2.分析网页我们需要的xpath路径
通过审查元素我们想要的路径为
公寓名：//div[@class=’_qhtkbey’]/text()
评价数：///div[2]/div[1]/div/span[2]/text()#我期望用评价数来作为房源的销售热度来进行分析，因为airbnb并不会显示交易量
显示价格：///div[2]/div[2]/div/div/div[1]/div/span/span/span/span[1]/span[2]/text()
房源类型：//*/div[2]/a/div/div[1]/div/span/span/text()
这里我提一下，当时我发现爬取出来的公寓名的数量和房源类型这些匹配不上，后来发现原来是没有plus房源的名字信息，在名称这一块plus房源和普通房源的路径不在