python网络爬虫教程(五):使用正则表达式提取数据
正则表达式是处理字符串的强大工具,它有自己特定的语法结构,对于爬虫来说,它可以帮我们从HTML例提取我们想要的信息,实际上正则表达式应用非常广泛,如数据挖掘、数据分析、网络爬虫、输入有效性验证等。在python中我们可以用re模块来实现正则表达式。
正则表达式的功能非常强大,短短一节是讲不完的,对于新手来说,学习正则表达式可以浏览廖雪峰的官方网站。
这里列出了常用的几个匹配规则:
模式
描述
\w
匹配字母、数字及下划线
\W
匹配不是字母、数字及下划线的字符
\s
匹配任意空白字符







