网络爬虫：“一课一得”

最新推荐文章于 2025-06-27 15:17:59 发布

原创最新推荐文章于 2025-06-27 15:17:59 发布 · 2k 阅读

30 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#爬虫

初探网络爬虫：从原理到实践的全流程解析

在信息爆炸的时代，数据已成为驱动决策的核心资源。而网络爬虫作为自动化获取网页数据的利器，正逐渐成为数据分析师、开发者乃至普通用户必备的技能之一。本文将从网络爬虫的基础概念出发，深入解析其工作原理，并通过实战案例带你快速上手，揭开网络爬虫的神秘面纱。

接下来，我将从几个方面向大家讲解一下网络爬虫的一些内容：

一、什么是网络爬虫？

网络爬虫（Web Crawler）又称网络蜘蛛、网络机器人，它是一种按照一定规则，自动浏览万维网的程序或脚本。通俗地讲，网络爬虫就是一个模拟真人浏览万维网行为的程序，这个程序可以代替真人自动请求万维网，并接收从万维网返回的数据。与真人浏览万维网相比，网络爬虫能够浏览的信息量更大，效率也更高。

根据应用场景的不同，网络爬虫主要可分为以下几类：

通用爬虫：也叫全网爬虫，像百度、谷歌等搜索引擎的爬虫就属于此类。它们的目标是尽可能抓取互联网上的公开网页，为搜索引擎建立索引库。这类爬虫具有覆盖范围广、抓取数据量大的特点，但对数据的处理相对简单。

聚焦爬虫：专注于特定主题或领域的信息获取。例如，电商比价网站的爬虫会专门抓取各电商平台的商品价格、评价等信息；学术研究用的爬虫则聚焦于特定学科的文献资料。聚焦爬虫更具针对性，能获取到更有价值的目标数据。

增量式爬虫：主要用于网站内容的更新抓取。它会检测网页的变化，只抓取新增或修改的内容，避免重复抓取，提高效率。比如新闻网站的爬虫需要实时更新最新的新闻资讯，就会采用增量式抓取方式。

二、简易爬虫程序体验

1、在电脑中适当路径下创建“网络爬虫”文件夹。

2、用vscode打开“网络爬虫”文件夹。

3、创建ipynb文件，并运行一下以下代码：

        from selenium import webdriver

        from selenium.webdriver.common.by import By

        driver = webdriver.Chrome()

        url = 'https://www.baidu.com/'

        driver.get(url) # 打开百度首页

        driver.maximize_window() # 将浏览器最大化

        # 找到搜索框元素，搜索框的 id 为"kw"

        search_box = driver.find_element(By.ID, "kw")

        # 在搜索框中输入查询内容

        search_box.send_keys("柳州职业技术大学")

        # 模拟点击搜索按钮，搜索按钮的 id 为"su"

        search_button = driver.find_element(By.ID, "su")

        search_button.click()

注意！运行之前要给谷歌浏览器安装驱动程序，方法如下：

（1）谷歌浏览器中输入“chrome://version”查看浏览器的版本号：

（2）前往谷歌浏览器驱动下载地址下载对应版本的驱动程序：

（3）在anaconda prompt中输入where conda，查看本机anaconda的安装路径，并进入到anaconda根目录下的Scripts文件夹中。

（4）将上一步下载好的压缩包解压，将“chromedriver.exe”文件复制到anaconda根目录下的Scripts文件夹中。

（5）在cmd命令窗口中输入“chromedriver”，查看版本号，确认是否安装成功。

注意：若此步骤失败显示非合法命令，考虑是由于没有给anaconda配置环境变量，将第（3）步中的Scripts文件夹的全部路径配置到系统环境变量path中即可。

三、Python 网络爬虫常用库与工具

Python 因其丰富的库和简洁的语法，成为了开发网络爬虫的首选语言。下面介绍一些在 Python 爬虫开发中常用的库和工具。

（一）请求库：requests

requests 库是 Python 中最常用的 HTTP 请求库，它提供了简洁友好的 API，使得发送 HTTP 请求变得非常简单。通过 requests 库，我们可以轻松设置请求头、请求参数、处理响应等。例如，发送一个 GET 请求获取网页内容：

import requests

response = requests.get('https://www.example.com')
if response.status_code == 200:
    print(response.text)

（二）解析库：BeautifulSoup

BeautifulSoup 是一个强大的 HTML 解析库，它可以将复杂的 HTML 文档解析成一个树形结构，方便我们提取所需的元素。使用 BeautifulSoup 解析 HTML 时，需要先选择一个解析器，常用的解析器有 html.parser、lxml 等。以下是一个简单的示例：

from bs4 import BeautifulSoup

html = '''
<html>
    <body>
        <h1>标题</h1>
        <p class="content">这是一段内容</p>
        <a href="https://www.example.com">链接</a>
    </body>
</html>
'''
soup = BeautifulSoup(html, 'html.parser')
title = soup.h1.text
content = soup.find('p', class_='content').text
link = soup.a['href']
print(title, content, link)

四、实战案例：抓取豆瓣电影 Top250

接下来通过一个实战案例，让大家更直观地了解网络爬虫的开发过程。我们将使用 Python 来抓取豆瓣电影 Top250 的信息，包括电影名称、评分、导演、主演、上映时间等。

（一）分析目标网站

豆瓣电影 Top250 的网址为豆瓣电影 Top 250，通过浏览器访问该页面，我们可以发现：

电影列表是以分页形式展示的，每页显示 25 部电影，通过 URL 中的 start 参数控制页码，如第一页 start=0，第二页 start=25，以此类推。

每部电影的信息包含在一个标签中，其中电影名称在标签内，评分在标签内，其他信息可以通过分析页面结构找到对应的标签。

（二）编写爬虫代码

首先，我们需要导入所需的库：

import requests
from bs4 import BeautifulSoup
import time
import random
import csv

然后，定义一个函数来获取页面内容，并添加请求头和随机延时来模拟人类浏览行为，避免被反爬：

def get_page(url):
    headers = {
        'User - Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        else:
            print(f'请求失败，状态码：{response.status_code}')
            return None
    except Exception as e:
        print(f'请求出错：{e}')
        return None

接下来，定义一个函数来解析页面内容，提取电影信息：

def parse_page(html):
    if not html:
        return []
    soup = BeautifulSoup(html, 'html.parser')
    movie_list = soup.find_all('div', class_='item')
    movies = []
    for movie in movie_list:
        try:
            # 提取电影名称
            title = movie.find('span', class_='title').text
            # 提取评分
            rating = movie.find('span', class_='rating_num').text
            # 提取导演、主演等信息
            info = movie.find('p', class_='').text.strip()
            # 处理信息，提取导演和主演
            if '导演' in info:
                director = info.split('导演: ')[1].split('\xa0\xa0\xa0')[0]
                actors = info.split('主演: ')[1].split('\n')[0] if '主演: ' in info else ''
            else:
                director = ''
                actors = ''
            # 提取上映时间
            year = movie.find('span', class_='year').text.strip('()') if movie.find('span', class_='year') else ''
            # 提取电影简介
            quote = movie.find('span', class_='quote').find('span', class_='inq').text if movie.find('span', class_='quote') else ''
            
            movies.append({
                'title': title,
                'rating': rating,
                'director': director,
                'actors': actors,
                'year': year,
                'quote': quote
            })
        except Exception as e:
            print(f'解析电影信息出错：{e}')
            continue
    return movies

最后，定义主函数来控制爬虫的流程，包括循环抓取各页内容、解析数据并存储：

def main():
    base_url = 'https://movie.douban.com/top250'
    all_movies = []
    # 抓取前10页（共250部电影）
    for start in range(0, 250, 25):
        url = f'{base_url}?start={start}'
        print(f'正在抓取页面：{url}')
        html = get_page(url)
        if html:
            movies = parse_page(html)
            all_movies.extend(movies)
            print(f'成功抓取{len(movies)}部电影，累计已抓取{len(all_movies)}部')
        # 随机延时1-3秒，避免频繁请求
        time.sleep(random.uniform(1, 3))
    
    # 将数据保存到CSV文件
    with open('douban_movies_top250.csv', 'w', newline='', encoding='utf - 8') as f:
        fieldnames = ['title', 'rating', 'director', 'actors', 'year', 'quote']
        writer = csv.DictWriter(f, fieldnames=fieldnames)
        writer.writeheader()
        writer.writerows(all_movies)
    print(f'数据已成功保存到douban_movies_top250.csv，共{len(all_movies)}部电影')

if __name__ == '__main__':
    main()

（三）运行与结果分析

运行上述代码，爬虫将依次抓取豆瓣电影 Top250 的各页内容，并将提取到的电影信息保存到 CSV 文件中。在运行过程中，我们可以看到控制台输出的抓取进度和状态。

通过分析抓取到的数据，我们可以进行各种有趣的统计和分析，例如：

统计不同导演的电影数量和评分情况，找出最受欢迎的导演。

分析电影的上映时间分布，了解不同年代电影的数量和评分趋势。

提取电影简介中的关键词，进行词云分析，了解豆瓣 Top250 电影的主题特点。

五、网络爬虫的进阶方向与发展趋势

随着互联网技术的不断发展，网络爬虫也在不断演进，出现了一些新的技术和发展趋势。

（一）动态页面抓取技术

越来越多的网站采用 JavaScript 来实现页面的动态加载和交互，这给传统的爬虫带来了挑战。为了应对这种情况，出现了一些专门用于处理动态页面的技术和工具，如 Selenium、Playwright 等。这些工具可以模拟真实浏览器的行为，执行 JavaScript 代码，获取动态渲染后的页面内容。