【Python爬虫案例】一个简单网站的图片爬虫!

Python3.8

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

关注过我的老粉,想必都知道,本渣渣是写过一些Pyhton爬虫的,虽然本渣渣代码水平跟垃圾佬捡的垃圾一样垃圾,一样菜,但是不妨碍本渣渣装比!

近期日更了一波DIY电脑文章,想必那批老粉都取关了吧?!

很久没写爬虫了,现在就水一篇,证明我还在!

写的比较渣,将就着看,写一篇少一篇?!

有什么问题可以联系加群一起探讨交流,群里大佬多哈!

案例网站:

341c208f50536c85aed545ee29b31c49.png

爬取效果:

93551638dfce2302c84ef0a16bd101bb.png

e1e329ea8d974618c532e786ec239843.png

爬取日志:

9f493072ea3d1f9013d1aba34e6ad620.png

关键数据获取源码:

html=response.content.decode('utf-8')
        tree=etree.HTML(html)
        imgs=tree.xpath('//div[@class="worksList"]/a[@class="item"]/img/@data-funlazy')
        names=tree.xpath('//div[@class="worksList"]/a[@class="item"]/div[@class="info"]/div[@class="fnt_16"]/text()')
        colleges=tree.xpath('//div[@class="worksList"]/a[@class="item"]/div[@class="info"]/div[@class="college fnt_16"]/text()')
        awards=re.findall(r'<div class="line"></div>\n<div class="desc fnt_14">(.+?)</div>\n<div class="desc fnt_14">',html,re.S)
        designs=re.findall(r'<div class="desc fnt_14">.+?</div>\n<div class="desc fnt_14">(.+?)</div>',html,re.S)
        for img,name,college,award,design in zip(imgs,names,colleges,awards,designs):
            img_name=f'{name}-{college}-{award}-{design}'
            print(img,img_name)

用了xml以及re库,主要是有两个节点的class名称是一致的,搞了很久不知道怎么处理好,所以用了两个不同的库获取到文本内容!

如果有更好的获取方法也可以评论区留言分享!

感谢!

附源码:

#大赛图片采集
# -*- coding: UTF-8 -*-
#公众号:Python与SEO学习
import requests,re
import random,time
import logging
from lxml import etree


# 日志的基本配置
logging.basicConfig(filename='access.log',
                    format='%(asctime)s - %(name)s - %(levelname)s -%(module)s: %(message)s',
                    datefmt='%Y-%m-%d %H:%M:%S %p',
                    level=10)




class Dtb(object):
    def __init__(self):
        self.ua_list = [
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1',
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36Chrome 17.0',
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
            'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0Firefox 4.0.1',
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
            'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
            'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
            'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
        ]


    def get_ua(self):
        ua = random.choice(self.ua_list)
        return ua


    def get_data(self, page):
        url = f'https://www.cdec.org.cn/winningWorks/13447?pageNo={page}'
        print(f">> 正在爬取第{page}页列表页数据..")
        logging.info(f">> 正在爬取第{page}页列表页数据..")
        headers={"User-Agent":self.get_ua()}
        response = requests.get(url=url, headers=headers, timeout=6)
        html=response.content.decode('utf-8')
        tree=etree.HTML(html)
        imgs=tree.xpath('//div[@class="worksList"]/a[@class="item"]/img/@data-funlazy')
        names=tree.xpath('//div[@class="worksList"]/a[@class="item"]/div[@class="info"]/div[@class="fnt_16"]/text()')
        colleges=tree.xpath('//div[@class="worksList"]/a[@class="item"]/div[@class="info"]/div[@class="college fnt_16"]/text()')
        awards=re.findall(r'<div class="line"></div>\n<div class="desc fnt_14">(.+?)</div>\n<div class="desc fnt_14">',html,re.S)
        designs=re.findall(r'<div class="desc fnt_14">.+?</div>\n<div class="desc fnt_14">(.+?)</div>',html,re.S)
        for img,name,college,award,design in zip(imgs,names,colleges,awards,designs):
            img_name=f'{name}-{college}-{award}-{design}'
            print(img,img_name)
            self.down_img(img,img_name)








    def down_img(self,img,img_name):
        print(f">>开始下载图片文件:{img_name}")
        logging.info(f">>开始下载图片:{img_name}")
        r = self.get_resp(img)
        img_name=f'{img_name}.{img.split('.')[-1]}'
        with open(f'{img_name}', 'wb') as f:
            f.write(r.content)
        print(f"下载图片文件:{img_name}完毕!")
        logging.info(f"下载图片文件:{img_name}完毕!")
        time.sleep(2)


    # 3次重试
    def get_resp(self,url):
        i = 0
        while i < 4:
            try:
                response = self.get_response(url, time=10)
                # print(response.status_code)
                return response
            except requests.exceptions.RequestException:
                i += 1
                print(f">> 获取网页出错,{i * 2}S后将重试获取第:{i} 次")
                logging.error(f">> {url}---获取网页出错,{i * 2}S后将重试获取第:{i} 次")
                time.sleep(i * 2)




    def get_response(self,url, time):
        ua = random.choice(self.get_ua())
        headers = {
            'User-Agent': ua,
        }
        response = requests.get(url=url, headers=headers, timeout=time)
        return response




    def main(self):
        pagenum=63
        for page in range(1,pagenum+1):
            spider.get_data(page)
            time.sleep(8)






if __name__ == '__main__':
    spider=Dtb()
    spider.main()

出现的问题:

获取不到图片地址

b731be19d0468f6215c5ffd6e9d33048.png

原网页图片不存在

59854d634e112baa23522b22c1df9eae.png

补救方法直接用if选择语句判断一下跳过没有图片的作品

print(img,img_name)
            print(type(img))
            if str(img)=='[]':
                print("!!图片失效!!跳过!")
                pass


            else:
                self.down_img(img, img_name)

更多阅读:

Python爬虫练习网站闪职网字体反爬练手解析!

33ade0dd8cd18ed8d3c1bdb5c63b30b1.png

Python爬虫多线程爬取图片资源案例!

fd0c15f23cce01e56325936c125eb87a.png

Python爬虫,红点奖Red获奖作品爬取及文件下载!

9485e197612dfa3915b92d076c840de6.png

·················END·················

你好,我是二大爷,

革命老区外出进城务工人员,

互联网非早期非专业站长,

喜好python,写作,阅读,英语

不入流程序,自媒体,seo . . .

公众号不挣钱,交个网友。

读者交流群已建立,找到我备注 “交流”,即可获得加入我们~

听说点 “在看” 的都变得更好看呐~

关注关注二大爷呗~给你分享python,写作,阅读的内容噢~

扫一扫下方二维码即可关注我噢~

af8bff4308bcb3ae0a5749de69d92d15.jpeg

08e428c86d6a78f467e53ab4d96d15dd.png

关注我的都变秃了

说错了,都变强了!

不信你试试

b7179fd17b63bd4b59bb0b44cb776dce.jpeg

扫码关注最新动态

公众号ID:eryeji

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值