Python进阶学习（一）网络爬虫

最新推荐文章于 2025-12-12 09:38:11 发布

原创最新推荐文章于 2025-12-12 09:38:11 发布 · 482 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

Python 专栏收录该内容

8 篇文章

订阅专栏

本文介绍了使用Python进行网络爬虫的基础知识，包括如何利用requests和BeautifulSoup模块抓取和解析网页，以及使用Selenium模块操控浏览器获取数据，适合Python进阶学习者。

Python进阶学习（一）网络爬虫

网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。网络爬虫的基本操作是抓取网页。

当然学习网络爬虫之前最好先学习相关的网页知识会帮助大家更好的理解如：html、css。。。。等等

下面来学习基本的网络爬虫小知识

1、让浏览器打开一个网页

import webbrowser
webbrowser.open('http://www.baidu.com')

2、下载网页信息并保存到本地

requests模块先打开命令框输入pip install requests安装

import requests

res = requests.get('http://www.baidu.com')
res.raise_for_status()
if res.status_code == requests.codes.ok :
    print('访问正常')
    print(res.text[:]) ##捕捉网页源代码
    file = open('d:\\Py\\s.txt','wb') #以二进制写入
    for i in res.iter_content(100000):
        file.write(i)
    file.close()

---------------------------至此我们就可以对下载下来的数据进行处理-----------------------------------

但是这样处理数据是很吃力的一件事................那怎么办呢？

下面引入BeautifulSoup模块来更好的解析网页而且可直接提取数据

1、安装BeautifulSoup模块在命令框中输入命令pip install beautifulSoup4

2、爬取网页数据

import requests,bs4
res = requests.get('http://www.baidu.com')
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text)
print(soup)

3、提取数据

方法汇总：https://blog.csdn.net/qq_41686130/article/details/79856474

------------------------------------------------到这里对网页的数据处理是不是简单了许多----------------------------------------------

但是这样还不是非常简便，而且对一些网页进行异步处理的内容无法获取.....

下面引入一个更牛逼的Selenuim模块可以更好的操控浏览器获取数据也是目前主流的用法

Selenuim模块

1、安装请参考https://segmentfault.com/a/1190000007249396

2、Selenuim可以操控火狐、谷歌、ie浏览器这里以火狐为例

from selenium import webdriver  #引入模块
browser = webdriver.Firefox()  #打开火狐浏览器
browser.get('http://www.baidu.com') #打开百度

3、数据提取

具体操作https://blog.csdn.net/qq_29186489/article/details/78661008

好啦写了这么多，还不如来个例子说明更直观---批量删除微博

因篇幅问题下篇博客见啦。。。。。。。https://mp.csdn.net/postedit/86692753

Python进阶学习（一）网络爬虫

Python进阶学习（一）网络爬虫

下面引入BeautifulSoup模块来更好的解析网页 而且可直接提取数据

Selenuim模块

好啦写了这么多，还不如来个例子说明更直观---批量删除微博

下面引入BeautifulSoup模块来更好的解析网页而且可直接提取数据