最近在研究网络爬虫playwright,用它来爬取某个网站的的链接,获取单个节点用page.get_attribute(selector, name, **kwargs),但是获取所有节点要用page.query_selector_all(selector),思路如下:
1、先打开网址;
2、使用选择器page.query_selector_all(selector)方法在页面中查找与XPath选择器匹配的所有元素,返回的是一个元素句柄列表;
3、最后根据使用element_handle.get_attribute(name )获取属性值即链接,属性名称为“href”,打印,代码如下所示。
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
# 显示浏览器,每步操作等待100毫秒
browser = p.firefox.launch(headless

本文介绍了如何利用网络爬虫Playwright抓取网页链接。通过打开网址,使用query_selector_all方法找到XPath选择器匹配的所有元素,然后通过get_attribute获取'href'属性得到链接。

793

被折叠的 条评论
为什么被折叠?



