目录
一、需求
爬取全国城市的天气预报
二、步骤
1、获取URL

通过观察页面发现,全国的天气预报是将城市分割为几个区域,然后每个区域用单独的页面显示;
通过观察每个页面的URL可以看出没有特别的规律,所以可以直接将其URL存放到一个列表中,然后顺序提取即可
2、天气预报信息获取

通过对比网页源码和响应的信息可以发现其数据是一致的,所以可以用XPATH插件去写表达式,通过XPATH去得到想要的信息;
3、将数据写入文件中
写入文件之前,首先要有工作簿对象以及工作表对象;如果没有,则需要创建工作簿以及工作表对象;如果有则打开原有的工作簿,再创建工作表对象;
openpyxl中的append方法可以直接将列表写入到表中,所以将得到的数据保存到列表中,然后再将其写入excel中
三、源码
# -*- coding: utf-8 -*-
import requests
import openpyxl
import os
from lxml import etree
def main():
urls = [
'http://www.weather.com.cn/textFC/hb.shtml',
'http://www.weather.com.cn/textFC/db.shtml',
'http://www.weather.com.cn/textFC/hd.shtml',
'http://www.weather.com.cn/textFC/hz.shtml',
'http://www.weather.com.cn/textFC/hn.shtml',
'http://www.weather.com.cn/textFC/xb.shtml',
'http://www.weather.com.cn/textFC/xn.shtml',
'http://www.weather.com.cn/textFC/gat.shtml'
]
region = [
'华北',
'东北',
'华东',
'华中',
'华南',
'西北',
'西南',
'港澳台'
]
for index,url in enumerate(urls):
get_content(index,url,region)
def get_content(index,url,region):
if not os.path.exists('天气预报.xlsx'):
wb = openpyxl.Workbook()
sheet = wb.active
sheet.title = region[index]
sheet.append(['城市', '天气', '风向', '风力', '最高温度'])#写入表头
else:
wb = openpyxl.load_workbook('天气预报.xlsx')#打开工作簿
wb.create_sheet(title=region[index])#创建工作表
sheet = wb.worksheets[index]#打开工作表
sheet.append(['城市', '天气', '风向', '风力', '最高温度'])
headers = {
'User-Agent': 'Mozilla /5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36'
}
page_text = requests.get(url=url, headers=headers).content
tree = etree.HTML(page_text)
a_list = tree.xpath('//div[@class="conMidtab"][1]//table//tr')
tool = []
for a in a_list:
city = a.xpath('./td[@width="83"]/a/text()')
weather = a.xpath('./td[@width="98"]/text()')
wind1 = a.xpath('./td[@width="177"]/span[1]/text()')
wind2 = a.xpath('./td[@width="177"]/span[2]/text()')
max_temperature = a.xpath('./td[@width="86"]/text()')
if city:
sheet.append([city[0],weather[0],wind1[0],wind2[0],max_temperature[0]])
# print(tool)
wb.save('天气预报.xlsx')
if __name__ == '__main__':
main()
本文介绍了一个爬虫项目,旨在抓取全国各城市的天气预报信息,并将其存储到Excel文件中。首先,通过收集各个地区天气预报页面的URL,接着利用XPATH解析网页获取所需数据,最后使用openpyxl库将数据写入到Excel工作簿的不同工作表中。

1380

被折叠的 条评论
为什么被折叠?



