selenium关于正则表达式匹配webdriver.Chrome().page_source中文的问题

最新推荐文章于 2026-06-24 16:01:46 发布

原创最新推荐文章于 2026-06-24 16:01:46 发布 · 8.9k 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#Unicode #正则表达式 #中文

收录于

Python 专栏收录该内容

65 篇文章

订阅专栏

本文通过实例讲解了在使用Selenium的Chrome webdriver获取页面源码时，由于page_source为Unicode类型，因此匹配中文页数的正则表达式需使用ur''。正确代码为re.findall(ur'共(d+)页到第', browser.page_source)，若改为r''则匹配失败。" 117537743,7242376,金融数智化升级之道：华为的云原生、行业场景与生态构建,"['大数据', '人工智能', '物联网', '智慧金融']

本文以网站https://mm.taobao.com/self/model_album.htm?user_id=687471686 点击打开链接为例子，介绍如何匹配总页数，如下图所示。

webdriver.Chrome().page_source的类型为Unicode，所以匹配字符串也要是unicode，测试代码如下：

from selenium import webdriver
import time
import re

if __name__ == '__main__':
    browser = webdriver.Chrome()
    browser.get('https://mm.taobao.com/self/model_album.htm?user_id=687471686')
    time.sleep(2)
    r = re.findall(ur'共(\d+)页 到第', browser.page_source)
    print r