并发编程(四)：Python并发编程在爬虫中的应用

原创已于 2023-08-24 10:16:02 修改 · 671 阅读

1 GEO检测

标签

#python #okhttp #开发语言

于 2023-08-08 09:25:01 首次发布

Python全栈教程（0基础）专栏收录该内容

47 篇文章 ¥29.90 ¥99.00

订阅专栏

本文探讨了Python并发编程在爬虫中的应用，包括单线程、多线程和异步I/O版本的爬虫实现。通过实例展示了在爬取360图片网站时，不同并发方式的效率和CPU利用率，强调了多线程和异步I/O在I/O密集型任务中的优势。

专栏介绍

结合自身经验和内部资料总结的Python教程，每天3-5章，最短1个月就能全方位的完成Python的学习并进行实战开发，学完了定能成为大佬！加油吧！卷起来！

全部文章请访问专栏：《Python全栈教程（0基础）》
再推荐一下最近热更的：《大厂测试高频面试题详解》该专栏对近年高频测试相关面试题做详细解答，结合自己多年工作经验，以及同行大佬指导总结出来的。旨在帮助测试、python方面的同学，顺利通过面试，拿到自己满意的offer！

文章目录

并发编程在爬虫中的应用

之前的课程，我们已经为大家介绍了 Python 中的多线程、多进程和异步编程，通过这三种手段，我们可以实现并发或并行编程，这一方面可以加速代码的执行，另一方面也可以带来更好的用户体验。爬虫程序是典型的 I/O 密集型任务，对于 I/O 密集型任务来说，多线程和异步 I/O 都是很好的选择，因为当程序的某个部分因 I/O 操作阻塞时，程序的其他部分仍然可以运转，这样我们不用在等待和阻塞中浪费大量的时间。下面我们以爬取“360图片”网站的图片并保存到本地为例，为大家分别展示使用单线程、多线程和异步 I/O 编程的爬虫程序有什么区别，同时也对它们的执行效率进行简单的对比。

“360图片”网站的页面使用了 Ajax 技术，这是很多网站都会使用的一种异步加载数据和局部刷新页面的技术。简单的说，页面上的图片都是通过 JavaScript 代码异步获取 JSON 数据并动态渲染生成的，而且整个页面还使用了瀑布式加载（一边向下滚动，一边加载更多的图片）。我们在浏览器的“开发者工具”中可以找到提供动态内容的数据接口，如下图所示，我们需要的图片信息就在服务器返回的 JSON 数据中。

例如，要获取“美女”频

了解本专栏