爬虫天气预报——写入excel表中

本文介绍了一个爬虫项目,旨在抓取全国各城市的天气预报信息,并将其存储到Excel文件中。首先,通过收集各个地区天气预报页面的URL,接着利用XPATH解析网页获取所需数据,最后使用openpyxl库将数据写入到Excel工作簿的不同工作表中。

目录

一、需求

二、步骤

1、获取URL

        2、天气预报信息获取

3、将数据写入文件中

三、源码


一、需求

爬取全国城市的天气预报

二、步骤

1、获取URL

        通过观察页面发现,全国的天气预报是将城市分割为几个区域,然后每个区域用单独的页面显示;

        通过观察每个页面的URL可以看出没有特别的规律,所以可以直接将其URL存放到一个列表中,然后顺序提取即可

2、天气预报信息获取

         通过对比网页源码和响应的信息可以发现其数据是一致的,所以可以用XPATH插件去写表达式,通过XPATH去得到想要的信息;

3、将数据写入文件中

        写入文件之前,首先要有工作簿对象以及工作表对象;如果没有,则需要创建工作簿以及工作表对象;如果有则打开原有的工作簿,再创建工作表对象;

        openpyxl中的append方法可以直接将列表写入到表中,所以将得到的数据保存到列表中,然后再将其写入excel中

三、源码

# -*- coding: utf-8 -*-
import requests
import openpyxl
import os
from lxml import etree

def main():
    urls = [
        'http://www.weather.com.cn/textFC/hb.shtml',
        'http://www.weather.com.cn/textFC/db.shtml',
        'http://www.weather.com.cn/textFC/hd.shtml',
        'http://www.weather.com.cn/textFC/hz.shtml',
        'http://www.weather.com.cn/textFC/hn.shtml',
        'http://www.weather.com.cn/textFC/xb.shtml',
        'http://www.weather.com.cn/textFC/xn.shtml',
        'http://www.weather.com.cn/textFC/gat.shtml'
    ]
    region = [
        '华北',
        '东北',
        '华东',
        '华中',
        '华南',
        '西北',
        '西南',
        '港澳台'
    ]
    for index,url in enumerate(urls):
        get_content(index,url,region)


def get_content(index,url,region):
    if not os.path.exists('天气预报.xlsx'):
        wb = openpyxl.Workbook()
        sheet = wb.active
        sheet.title = region[index]
        sheet.append(['城市', '天气', '风向', '风力', '最高温度'])#写入表头
    else:
        wb = openpyxl.load_workbook('天气预报.xlsx')#打开工作簿
        wb.create_sheet(title=region[index])#创建工作表
        sheet = wb.worksheets[index]#打开工作表
        sheet.append(['城市', '天气', '风向', '风力', '最高温度'])
    headers = {
        'User-Agent': 'Mozilla  /5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36'
    }
    page_text = requests.get(url=url, headers=headers).content
    tree = etree.HTML(page_text)
    a_list = tree.xpath('//div[@class="conMidtab"][1]//table//tr')
    tool = []
    for a in a_list:
        city = a.xpath('./td[@width="83"]/a/text()')
        weather = a.xpath('./td[@width="98"]/text()')
        wind1 = a.xpath('./td[@width="177"]/span[1]/text()')
        wind2 = a.xpath('./td[@width="177"]/span[2]/text()')
        max_temperature = a.xpath('./td[@width="86"]/text()')
        if city:
            sheet.append([city[0],weather[0],wind1[0],wind2[0],max_temperature[0]])
    # print(tool)
    wb.save('天气预报.xlsx')


if __name__ == '__main__':
    main()



评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值