从零搭建Selenium自动化测试框架：Python+pytest+POM实战指南

原创于 2026-06-21 11:19:30 发布 · 279 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#Selenium自动化测试 #Python #pytest

1. 项目概述：为什么我们需要一个自己的自动化测试框架？

如果你是一名测试工程师，或者正在向这个方向发展，那么“Selenium自动化测试框架的搭建”这个标题对你来说，可能既熟悉又有点无从下手。熟悉是因为Selenium几乎是Web自动化测试的代名词，无从下手则是因为，从写几行脚本到搭建一个真正能在团队中稳定运行、易于维护的框架，中间隔着一条巨大的鸿沟。我见过太多项目，初期为了快速上线，写了几十个甚至上百个零散的测试脚本，结果没过几个月，就陷入了维护地狱——浏览器版本一升级，脚本大面积报错；测试数据混乱不堪，用例之间相互影响；想加个测试报告，发现每个脚本都得改一遍。

这就是搭建一个框架的核心价值所在：它不是简单地会用 driver.find_element ，而是构建一套标准化的基础设施。这套设施能帮你管理浏览器驱动、处理测试数据、组织测试用例、生成直观的报告、并优雅地处理各种异常。最终的目标是，让编写自动化测试用例变得像填空一样简单，让执行和排查问题变得高效透明。基于我过去在多个项目中从零到一搭建和维护Selenium框架的经验，我将带你一步步拆解这个过程，把那些容易踩坑的细节和提升效率的技巧都摊开来讲。

2. 框架核心设计思路与选型考量

在动手写第一行代码之前，想清楚框架的“样子”至关重要。这决定了后续开发的效率和整个框架的生命力。

2.1 核心架构模式：为什么是Page Object Model？

几乎所有的现代Selenium框架都会采用Page Object Model设计模式，简称POM。你可以把它理解成前端的“组件化”。它的核心思想是将测试脚本（业务逻辑）和页面元素定位、操作细节分离开。

传统脚本的问题 ：一个登录测试可能这样写： driver.find_element(By.ID, “username”).send_keys(“admin”) ，然后同样的定位器 By.ID, “username” 会散落在无数个测试用例里。一旦前端开发把 id 从 username 改成了 userName ，你就需要修改所有用到它的脚本，维护成本极高。

POM的解决方案 ：为每个页面（或页面上的重要组件）创建一个对应的类，比如 LoginPage 。这个类内部封装了该页面的所有元素定位器（如 username_input = (By.ID, “username”) ）和基本的页面操作（如 login(username, password) ）。测试用例里，你只需要这样写： login_page.login(“admin”, “123456”) 。前端元素变了？你只需要去修改 LoginPage 类里的一个定位器即可。

实操心得 ：POM不是银弹，过度设计也会带来问题。对于极其简单、一次性的页面，单独建类可能反而繁琐。我的经验是，对于核心业务流程涉及的主要页面（如登录、主页、订单提交），必须采用POM；对于某些静态的、辅助性的页面，可以酌情简化。

2.2 技术栈选型：Python + pytest 为何成为主流？

Selenium支持多种语言，但Python+pytest的组合目前是社区最活跃、资源最丰富的选择。

编程语言：Python 。语法简洁，学习曲线平缓，拥有极其丰富的生态库（用于处理数据、连接数据库、发送请求等）。对于测试脚本这种偏“胶水”性质的任务，Python再合适不过。
测试框架：pytest 。它比Python自带的unittest更强大、更灵活。其核心优势在于：
- 夹具：通过 @pytest.fixture ，你可以轻松实现测试前置（如初始化浏览器）和后置（如关闭浏览器、截图）操作，并且作用域可控（函数级、类级、模块级、会话级）。
- 参数化 ：用 @pytest.mark.parametrize 可以轻松实现数据驱动测试，用多组数据运行同一个测试用例。
- 丰富的插件生态 ：生成HTML报告、控制用例执行顺序、分布式运行等，都有现成的插件。
- 断言更智能 ：断言失败时，pytest能给出非常详细的差异对比信息。

为什么不选其他？ 比如Robot Framework，它关键字驱动的模式对于纯黑盒测试或新手更友好，但灵活性不足，复杂逻辑实现起来比较绕。而Python+pytest给了你完全的编程控制能力，适合构建复杂、定制化程度高的自动化框架。

2.3 关键组件规划：一个健壮框架的四大支柱

一个完整的自动化测试框架，远不止是Selenium脚本。你需要规划好以下核心组件，它们共同构成了框架的骨架：

驱动管理模块 ：负责自动下载、匹配和启动对应版本的浏览器驱动。这是新手最容易栽跟头的地方，后面我们会详细讲如何优雅地解决。
页面对象层 ：即前面讲的POM，这是框架的业务核心，良好的设计能极大提升脚本的可读性和可维护性。
测试数据管理层 ：测试数据（用户名、密码、商品ID等）不应该硬编码在脚本里。常见的做法是使用YAML、JSON、Excel或直接连接测试数据库来管理数据，实现数据与脚本的分离。
日志与报告模块 ：执行过程不透明是自动化测试的大忌。你需要记录关键操作日志，并在测试结束后生成一份直观的HTML报告，清晰展示哪些用例通过、哪些失败、失败时的截图和错误信息是什么。

3. 环境搭建与核心依赖详解

理论说再多，不如动手搭一遍。这里我们以Windows系统、Chrome浏览器为例，讲解最稳妥的搭建流程。

3.1 Python环境与虚拟隔离

首先，确保你安装了Python 3.7或以上版本。我强烈建议为每个自动化项目创建独立的虚拟环境，这能避免不同项目间的包版本冲突。

# 安装虚拟环境工具
pip install virtualenv
# 为你的自动化项目创建一个虚拟环境，比如叫 `auto_test_env`
virtualenv auto_test_env
# 激活虚拟环境 (Windows)
auto_test_env\Scripts\activate

激活后，你的命令行提示符前会出现 (auto_test_env) ，表示你正在这个独立的环境中操作。

3.2 依赖包安装：精准控制版本

在虚拟环境下，使用 pip 安装核心依赖。版本号很重要，不兼容的版本会导致各种诡异问题。

pip install selenium==4.15.0  # 核心Web自动化库
pip install pytest==7.4.4     # 测试框架
pip install pytest-html==4.1.0 # 用于生成HTML报告
pip install webdriver-manager==4.0.1 # 神器！自动管理浏览器驱动
pip install PyYAML==6.0.1     # 用于读写YAML格式的测试数据
pip install openpyxl==3.1.2   # 用于读写Excel格式的测试数据（如果需要）

这里重点提一下 webdriver-manager ，它是我认为现代Selenium框架的必备神器。以往，你需要手动去官网下载 chromedriver ，还要确保其版本与本地Chrome浏览器版本严格匹配，非常麻烦。现在，你只需要在代码中引入它，它就能自动检测浏览器版本并下载匹配的驱动，彻底解放双手。

3.3 驱动管理：告别版本匹配噩梦

在没有 webdriver-manager 之前，驱动管理是个体力活。现在，一切都变得简单。在你的浏览器初始化代码中：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# 使用 webdriver-manager 自动获取正确的 ChromeDriver 路径
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

执行这段代码， webdriver-manager 会检查你的Chrome版本，如果本地没有对应的驱动，它会自动下载并缓存起来。从此，你再也不用关心驱动版本问题。

注意事项 ：在公司内网环境，可能无法直接访问Google的下载服务器。 webdriver-manager 支持配置镜像源。你可以通过设置环境变量 WDM_SSL_VERIFY 或使用其API参数来指定国内的镜像地址，这是一个非常实用的内网适配技巧。

4. 框架目录结构与代码组织

一个清晰的目录结构是框架可维护性的基础。下面是一个我常用的、经过多个项目验证的结构：

your_automation_framework/
├── configs/                 # 配置文件目录
│   ├── config.yaml          # 主配置文件（环境URL、超时时间、日志级别等）
│   └── test_data.yaml       # 测试数据文件
├── drivers/                 # 存放本地浏览器驱动（备用，通常由webdriver-manager管理）
├── logs/                    # 运行时日志输出目录
├── reports/                 # 测试报告输出目录
├── pages/                   # 页面对象层
│   ├── __init__.py
│   ├── base_page.py         # 所有页面对象的基类
│   ├── login_page.py        # 登录页面
│   └── main_page.py         # 主页面
├── test_cases/              # 测试用例层
│   ├── __init__.py
│   ├── conftest.py          # pytest共享夹具配置
│   ├── test_login.py        # 登录测试用例
│   └── test_order.py        # 订单测试用例
├── utils/                   # 工具函数层
│   ├── __init__.py
│   ├── logger.py            # 日志记录器封装
│   └── file_reader.py       # 文件读取工具（读YAML/Excel）
└── run_tests.py             # 测试执行入口脚本

各目录职责解析 ：

configs ：存放所有配置，实现配置与代码分离。更换测试环境（从测试环境切到预发布环境）只需改一个配置文件。
pages ：页面对象类的家。 base_page.py 尤其重要，它封装了所有页面通用的方法，比如查找元素、等待元素、截图等，其他页面类继承它，可以复用这些方法。
test_cases ：真正的测试用例。 conftest.py 是pytest的本地插件文件，里面可以定义整个项目共享的 fixture ，比如初始化驱动。
utils ：放一些通用的工具，比如一个封装好的日志类，确保所有模块的日志格式统一、输出到文件和控制台。

5. 核心模块实现与编码实战

接下来，我们深入几个核心模块，看看代码具体怎么写。

5.1 基石：封装一个健壮的BasePage

base_page.py 是整个页面对象层的基石。它的目标是封装Selenium原生API中那些冗长且易错的操作。

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException
import logging

class BasePage:
    def __init__(self, driver):
        self.driver = driver
        self.logger = logging.getLogger(__name__)
        self.wait = WebDriverWait(driver, 10) # 显式等待，超时时间10秒

    def find_element(self, locator):
        """查找单个元素，加入显式等待和日志"""
        try:
            self.logger.info(f"正在查找元素: {locator}")
            element = self.wait.until(EC.presence_of_element_located(locator))
            return element
        except TimeoutException:
            self.logger.error(f"查找元素超时: {locator}")
            self._take_screenshot("element_not_found")
            raise

    def click(self, locator):
        """点击元素，点击前确保元素可点击"""
        element = self.wait.until(EC.element_to_be_clickable(locator))
        element.click()
        self.logger.info(f"已点击元素: {locator}")

    def input_text(self, locator, text):
        """输入文本，先清空再输入"""
        element = self.find_element(locator)
        element.clear()
        element.send_keys(text)
        self.logger.info(f"在元素 {locator} 中输入文本: {text}")

    def _take_screenshot(self, name):
        """内部方法：截图并保存到报告目录"""
        screenshot_path = f"./reports/screenshot_{name}_{int(time.time())}.png"
        self.driver.save_screenshot(screenshot_path)
        self.logger.info(f"截图已保存至: {screenshot_path}")
        return screenshot_path

    # 可以继续封装更多通用方法：get_text, is_displayed, switch_to_window等

这个 BasePage 类做了几件关键事：1) 集成了显式等待，避免使用不稳定的 sleep ；2) 加入了详细的日志记录，方便排查问题；3) 对常见操作（点击、输入）进行了二次封装，使其更健壮；4) 集成了失败自动截图功能。

5.2 应用：实现一个LoginPage

有了 BasePage ，实现具体的页面就非常清晰了。

from selenium.webdriver.common.by import By
from pages.base_page import BasePage

class LoginPage(BasePage):
    # 页面元素定位器，统一管理
    USERNAME_INPUT = (By.ID, “username”)
    PASSWORD_INPUT = (By.ID, “password”)
    LOGIN_BUTTON = (By.XPATH, “//button[@type=‘submit’]”)
    ERROR_MSG = (By.CLASS_NAME, “error-message”)

    def __init__(self, driver):
        super().__init__(driver)
        self.driver = driver

    def open(self, url):
        self.driver.get(url)
        return self

    def login(self, username, password):
        """登录业务流程"""
        self.input_text(self.USERNAME_INPUT, username)
        self.input_text(self.PASSWORD_INPUT, password)
        self.click(self.LOGIN_BUTTON)

    def get_error_message(self):
        """获取登录错误提示信息"""
        try:
            return self.find_element(self.ERROR_MSG).text
        except NoSuchElementException:
            return None

看，测试用例将来调用 login 方法时，完全不需要关心页面元素是什么、怎么定位、怎么等待，只需要关心业务数据（用户名和密码）。这就是POM带来的好处。

5.3 灵魂：使用pytest Fixture管理驱动生命周期

conftest.py 是pytest的魔力所在。我们可以在这里定义一个 driver 夹具，它负责在测试开始前创建浏览器实例，在测试结束后关闭。

import pytest
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

@pytest.fixture(scope=“function”) # 作用域：每个测试函数执行一次
def driver():
    """创建并返回一个WebDriver实例，测试结束后自动退出"""
    # 配置Chrome选项
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument(“--start-maximized”) # 最大化窗口
    chrome_options.add_argument(“--disable-infobars”) # 禁用信息栏
    # chrome_options.add_argument(“--headless”) # 无头模式，不打开GUI，常用于CI/CD环境
    service = Service(ChromeDriverManager().install())
    driver_instance = webdriver.Chrome(service=service, options=chrome_options)
    driver_instance.implicitly_wait(5) # 设置全局隐式等待，作为显式等待的补充

    yield driver_instance # 将driver实例提供给测试用例使用

    # 测试用例执行完毕后，执行下面的清理工作
    driver_instance.quit()

这个夹具被标记为 scope=“function” ，意味着每个测试用例函数都会获得一个全新的、独立的浏览器会话，用例之间完全隔离，避免了状态污染。 yield 关键字是关键，它之前的代码是“前置条件”，之后的代码是“后置清理”。

5.4 实战：编写第一个数据驱动测试用例

现在，我们可以用pytest写一个真正的测试用例了。我们将测试登录功能，并使用参数化注入多组测试数据。

import pytest
from pages.login_page import LoginPage

class TestLogin:
    """登录功能测试集"""

    @pytest.mark.parametrize(“username, password, expected”, [
        (“admin”, “correct_password”, “success”), # 正确用户名密码
        (“admin”, “wrong_password”, “invalid_credentials”), # 错误密码
        (“”, “correct_password”, “username_required”), # 用户名为空
        (“admin”, “”, “password_required”), # 密码为空
    ])
    def test_login_with_different_inputs(self, driver, username, password, expected):
        """数据驱动测试：使用不同数据测试登录功能"""
        login_page = LoginPage(driver)
        login_page.open(“https://your-test-app.com/login”)
        login_page.login(username, password)

        if expected == “success”:
            # 验证登录成功，例如检查是否跳转到主页
            assert “dashboard” in driver.current_url
        else:
            # 验证登录失败，并检查错误信息
            error_msg = login_page.get_error_message()
            assert error_msg is not None
            # 这里可以根据具体的错误提示文案做更精确的断言
            assert expected in error_msg.lower()

这个测试用例非常清晰。 @pytest.mark.parametrize 装饰器让一个测试函数运行了4次，每次注入不同的数据。测试用例本身只关注业务逻辑：打开页面、执行登录、根据预期结果进行断言。页面细节和驱动管理都被完美地隐藏在了底层。

6. 高级特性与效率提升技巧

框架搭起来能跑只是第一步，要让它在团队中真正好用，还需要一些“高级”特性。

6.1 生成专业级的HTML测试报告

pytest-html插件可以生成不错的报告，但样式比较基础。 pytest-html 报告可以通过钩子函数进行深度定制，比如把失败用例的截图自动嵌入到报告中。

首先在 conftest.py 中配置并定制报告：

import pytest
from datetime import datetime

def pytest_configure(config):
    """pytest配置钩子，用于设置报告名称等"""
    config.option.htmlpath = f“./reports/report_{datetime.now().strftime(‘%Y%m%d_%H%M%S’)}.html”

@pytest.hookimpl(hookwrapper=True)
def pytest_runtest_makereport(item, call):
    """钩子：在测试用例生成报告时，如果失败则自动截图"""
    outcome = yield
    report = outcome.get_result()
    if report.when == “call” and report.failed: # 仅在测试执行失败时
        driver = item.funcargs.get(“driver”) # 获取测试用例中的driver夹具
        if driver:
            # 调用BasePage或driver的截图方法
            screenshot_path = driver.get_screenshot_as_file(f“./reports/failure_{item.name}_{datetime.now().strftime(‘%H%M%S’)}.png”)
            # 将截图路径添加到html报告的extra信息中
            if hasattr(report, “extra”):
                report.extra.append(pytest_html.extras.image(screenshot_path, ‘Failure Screenshot’))

然后，在命令行执行测试时加上 --html 参数： pytest --html=./reports/report.html --self-contained-html 。生成的报告会包含一个清晰的概览、详细的用例执行结果，以及失败用例的截图，排查问题一目了然。

6.2 测试数据的外部化管理

将测试数据放在代码外是基本要求。YAML格式因其可读性好、支持层级结构而备受青睐。

configs/test_data.yaml :

login:
  valid_user:
    username: “standard_user”
    password: “secret_sauce”
  invalid_user:
    username: “locked_out_user”
    password: “wrong_password”
  empty_username:
    username: “”
    password: “secret_sauce”

urls:
  base_url: “https://www.saucedemo.com”
  login_path: “/”

在测试用例中，通过工具函数读取：

# utils/file_reader.py
import yaml
import os

def read_yaml(file_path):
    with open(file_path, ‘r’, encoding=‘utf-8’) as f:
        return yaml.safe_load(f)

# test_cases/test_login.py
from utils.file_reader import read_yaml

data = read_yaml(‘./configs/test_data.yaml’)
valid_user = data[‘login’][‘valid_user’]
base_url = data[‘urls’][‘base_url’]

这样，当测试数据需要变更时，你完全不需要动代码，只需修改YAML文件即可。

6.3 等待策略：隐式等待与显式等待的黄金组合

元素加载是Web自动化中最常见的问题。Selenium提供了两种等待方式：

隐式等待 ： driver.implicitly_wait(10) 。这是一个全局设置，在查找任何元素时，如果元素没有立即出现，WebDriver会轮询DOM最多10秒。它简单，但不灵活，无法处理更复杂的条件（如元素可点击、元素包含特定文本）。
显式等待 ： WebDriverWait(driver, 10).until(EC.element_to_be_clickable(locator)) 。针对某个特定条件进行等待，更加精确和可靠。

最佳实践 ：在 conftest.py 的 driver 夹具中设置一个较短的 隐式等待 （如5秒），作为兜底策略。在 BasePage 的所有封装方法中（如 find_element , click ），使用 显式等待 来应对具体的交互场景。这样既能保证脚本的稳定性，又避免了不必要的全局长时间等待。

7. 常见问题排查与实战避坑指南

即使框架搭建得再完美，在实际运行中也会遇到各种问题。这里记录了几个最高频的“坑”和解决方案。

7.1 元素定位失败：90%问题的根源

这是自动化测试中最常见的问题。排查思路如下：

检查定位器 ：首先手动在浏览器开发者工具中，用 $x() （XPath）或 $$() （CSS Selector）验证你的定位器是否能唯一找到元素。
检查页面是否加载完成 ：在操作元素前，确保页面或所需组件已加载。可以等待某个标志性元素出现。
检查iframe/Shadow DOM ：如果元素在 <iframe> 或Shadow DOM内部，你需要先切换上下文（ driver.switch_to.frame ）才能定位到它。
检查动态属性 ：避免使用绝对路径的XPath或包含随机ID、类的定位器。优先使用相对稳定的属性，如 name , data-testid （如果开发规范使用了的话）。
等待策略不足 ：增加显式等待的时间，或使用更合适的等待条件（如 visibility_of_element_located 而不仅仅是 presence_of_element_located ）。

7.2 浏览器驱动版本不匹配

虽然 webdriver-manager 解决了大部分问题，但在某些特定环境（如Docker容器、特定版本的Chromium）下可能仍需手动处理。

症状：启动时报错，提示“This version of ChromeDriver only supports Chrome version XX”。
解决：
1. 查看本地Chrome版本：浏览器地址栏输入 chrome://version/ 。
2. 去官方或镜像站下载对应版本的 chromedriver 。
3. 将下载的驱动放入系统PATH，或直接在代码中指定路径： service = Service(executable_path=“/path/to/your/chromedriver”) 。

7.3 异步加载与动态内容

现代前端应用大量使用Ajax和前端框架，元素可能异步出现。

策略：不要用 time.sleep() 硬等待！使用显式等待，并等待 特定的、稳定的条件 。例如，等待“提交”按钮从禁用状态变为可用，比等待一个加载图标消失更可靠。

技巧：可以自定义等待条件。例如，等待某个元素的文本内容包含特定字符串：

from selenium.webdriver.support import expected_conditions as EC
def text_to_be_present_in_element(locator, text):
    def _predicate(driver):
        try:
            element_text = driver.find_element(*locator).text
            return text in element_text
        except StaleElementReferenceException:
            return False
    return _predicate

wait.until(text_to_be_present_in_element((By.ID, “status”), “处理完成”))

7.4 测试用例的独立性与稳定性

测试用例之间不应该有依赖，否则一个用例失败会导致后续一连串失败。

保证独立性 ：充分利用pytest的 fixture ，为每个用例提供全新的 driver 实例（ scope=“function” ）。确保每个用例都从一个干净的初始状态开始（如退出登录、清理测试数据）。
处理登录状态 ：如果很多用例都需要登录，可以创建一个 scope=“session” 的夹具，只登录一次，但要注意这可能会带来状态污染。更推荐的做法是，每个需要登录的用例都独立执行登录操作，或者使用API先获取一个有效的登录态（如token）并注入到浏览器Cookie中，这比UI登录更快更稳定。

搭建一个稳健的Selenium自动化测试框架，就像搭建一个乐高城堡。你需要稳固的基础（BasePage, 驱动管理）、标准化的模块（Page Objects）、灵活的连接件（pytest夹具）和清晰的图纸（目录结构）。这个过程初期需要投入，但一旦建成，它将为你和你的团队带来长期的效率红利——更快的回归测试、更早的缺陷发现、以及解放出来专注于更复杂测试场景的人力。记住，框架是活的，它会随着项目需求而不断演进，核心是保持代码的清晰、解耦和可维护性。