网络爬虫playwright获取网页链接

原创

已于 2022-06-17 09:23:09 修改 · 4.5k 阅读

标签

#爬虫 #网络爬虫 #python

收录于

于 2022-06-15 12:05:58 首次发布

本文介绍了如何利用网络爬虫Playwright抓取网页链接。通过打开网址，使用query_selector_all方法找到XPath选择器匹配的所有元素，然后通过get_attribute获取'href'属性得到链接。

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

最近在研究网络爬虫playwright，用它来爬取某个网站的的链接，获取单个节点用page.get_attribute(selector, name, **kwargs)，但是获取所有节点要用page.query_selector_all（selector），思路如下：
1、先打开网址；
2、使用选择器page.query_selector_all（selector）方法在页面中查找与XPath选择器匹配的所有元素，返回的是一个元素句柄列表；
3、最后根据使用element_handle.get_attribute(name ）获取属性值即链接，属性名称为“href”，打印，代码如下所示。

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
        # 显示浏览器，每步操作等待100毫秒
        browser = p.firefox.launch(headless

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kendybear

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

playwright-query-selector-all方法详解

11-27

playwright-query-selector-all方法详解

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫进阶：Element.get(‘attr’)在动态网页解析中的精妙应用与实战

最新发布

2201_76125261的博客

05-03

793

去年年底，我接到了一个需求：从某个电商平台抓取商品详情页的所有SKU信息。页面是动态渲染的，用requests+BeautifulSoup怎么拿都拿不到完整的DOM结构。折腾了两天后，终于下定决心学习无头浏览器方案——Pyppeteer和Playwright。也就是在这个过程中，我发现很多教程都在教“怎么点击按钮”“怎么等待元素加载”，却很少有人详细讲一个看似简单、实则暗藏玄机的API——element.get('attr')。你可能会觉得：不就是获取标签属性吗？有什么好讲的？

playwright教程（二）适合小白

weixin_45674080的博客

06-25

2840

本次案例为了让小白加深对playwright基本语法的认识，有一个简单案例，上手简单，一学就会

python爬虫之pyppeteer库

Java_KW的博客

06-12

2400

文章目录pyppeteerpyppeteer和puppeteer的不同点安装简单使用模拟文本输入和点击移除Chrome正受到自动测试软件的控制爬取京东商城 pyppeteer pyppeteer 是非官方 Python 版本的 Puppeteer 库，浏览器自动化库，由日本工程师开发。 Puppeteer 是 Google 基于 Node.js 开发的工具，调用 Chrome 的 API，通过 JavaScript 代码来操纵 Chrome 完成一些操作，用于网络爬虫、Web 程序自动测试等。 pyppet

playwright——query_selector_all方法详解

r558vv的博客

11-27

4548

elements = page.query_selector_all('.item >> .a') #既能匹配到"class = item"下一级"class = a" 的元素，又能匹配到 "class = a" 下一级或更深层级 "class = a" 的元素。eg2):匹配页面所有 "class = item" 下的所有元素中 "class = a" 的元素。eg):匹配页面所有 "class = item" 下所有 "div" 元素和所有 "span" 的元素。使用 >> 分隔多个选择器。

【playwright篇】教程(四)[locator/query_selector/wait_for_selector..等方法]

qadnkz的专栏

08-23

3677

方法返回值返回的是一个对象该对象代表了页面上找到的第一个匹配元素。这个对象提供了多种方法来与页面上的元素进行交互，例如点击、填写表单字段等。Playwright 提供了一个类来代表页面上单个 DOM 元素的句柄。提供了一系列方法来与页面上的元素进行交互，包括点击、填写表单字段、获取属性值等。下面是。

Playwright——获取页面中所有资源链接

2202_76035290的博客

02-22

695

【代码】Playwright——获取页面中所有资源链接。

【WB】微博爬虫案例_无头浏览器采集_selenium/playwright/requests方式采集

哈哈哈哈哈哈哈

05-13

1188

微博爬虫数据采集

playwright 爬虫使用

m0_67401382的博客

08-02

4932

的链接，遇到这样的请求，会回调cancel_request方法处理，cancel_request方法可以接收两个参数，一个是route，代表一个CallableRoute对象，另外一个是request，代表Request对象。click方法里面接选择器表达式，提取后点击，可设置timeout超时时间，默认30秒，设置以毫秒为单位，如等待5秒未点击成功，这报错timeout=5000。如果打开页面直接提取评论数据，是提取不到的，需要吧数据滑动到页面上后，再提取（坑死了）...

如何用Playwright进行网页抓取？

candice931020的博客

11-08

1万+

Playwright网页抓取教程近年来，随着互联网行业的发展，互联网的影响力逐渐上升。这也归功于技术水平的提高，研发出了越来越多用户体验良好的应用程序。此外，从网络应用程序的开发到测试，自动化在整个过程中的使用也越来越普及。网络爬虫抓取数据也应用地越来越广泛。拥有高效的工具来测试网络应用程序至关重要。Playwright等库在浏览器中打开网络应用程序并通过其他交互，例如单击元素、键入文本，以及从网络中提取公共数据来加速整个过程。本教程会解释有关Playwright的相关内容，以及如何将其....

python自动化测试之Playwright使用

qq_47993287的博客

02-27

6255

前两天接到了一个爬取网站的需求，而且刚好听说微软出了一个自动化的框架playwright，就尝试一下。安装官网 python版官网目前playwright支持用node和python两种编程语言，之后也会做java和c#的实现。 # 安装playwright pip install playwright # 安装需要的浏览器驱动，支持chrome，firefox和webkit三种浏览器驱动 python -m playwright install 使用 # 演示程序爬取一个网页中表格的全部数据

【playwright】新一代自动化测试神器playwright+python系列课程14_playwright网页相关操作_获取网页标题和URL

qq_35948955的博客

01-18

1331

这样的话，在执行登录功能的自动化测试脚本后，就可以以登录后的网页标题或url作为脚本执行的预期结果来断言，当断言成功时说明登录功能正常执行了自动化测试，当断言失败时则说明登录存在问题。那么断言时我们在代码中就需要在登录脚本执行完成后获取当前网页的title或url来跟预期值进行对比断言。在断言时通常选择一些页面上的信息或者页面上元素的状态来断言，使用网页标题或url来断言就是常见的断言方式，我们以某网站的登录功能为例，在登录前后网页的标题和url是不同的。登录后网页标题上增加了用户姓名，url也改变了。

Playwright中page.locator快速查找网页元素和对象交互操作

book_dw5189的博客

03-11

5524

Locator是Playwright中自动等待和重试的核心部分。简而言之，Locator代表在任何时刻在页面上查找元素的方法。可以使用page.locator()方法创建一个Locator对象实例。

Playwright系列：第3章用Python、Nodejs、Java创建我们第一个脚本

开源优测

04-20

642

下方查看历史精选文章重磅发布 - 自动化框架基础指南pdfv1.1大数据测试过程、策略及挑战测试框架原理，构建成功的基石在自动化测试工作之前，你应该知道的10条建议在自动化测试中，重要的不是工具我们基于Playwright实现以下步骤的自动化测试，用Python、Java和Nodejs实现，大家可以对比其中的异同。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍1. 启动Chromium浏览器2. 访问exam...

使用Playwright的selector方法快速定位网页元素(CSS选择器)

book_dw5189的博客

02-29

2425

通过传递适当的 CSS 选择器给 selector() 方法，可以在页面上准确定位到所需的元素，并进一步操作这些元素。

playwright常用方法(一)

xiangsulong的博客

01-04

5775

playwright常用方法

【playwright】新一代自动化测试神器playwright+python系列课程16_playwright元素相关操作_获取元素文本和属性

qq_35948955的博客

01-18

2739

以上图勾选复选框为例，假设测试中我们需要勾选一条数据执行删除或其他操作，但是直接去定位复选框会存在问题，以标题为123414的数据为例来说，它的复选框时第一个，但是在执行测试时如果临时产生了新数据这个复选框就不是第一个了，是无法确定是第几个的，由于这个元素的属性与其他复选框的属性是一样的，value属性值虽然是唯一的，但是每次登录值就会变话，这样就会导致我们无法直接定位这个复选框。以登录时输入密码后，在获取密码输入框中的密码为例。我们再来看一下获取输入框中的值。接下来我们来获取元素的属性，

【经验分享】利用palywright爬取网页上的内容_爬虫

paddy0213的博客

03-27

5899

网上关于小说爬虫知识，随便一搜都有介绍，所以这里就不对网页源代码做过多的分析，主要是讲解如何通过playwright保存关键信息。个人非常喜欢playwright这个模块，它非常契合python的简单易用的特性，特别适合我这种业余爱好者。这种特性，就让他在爬取网页上内容这块，也有了一席之地。可以这么说，我们能在网页看到的，就应该能爬取下来。playwright模块能在独立的浏览器上，进行各项操作，以及源网页代码的提取，截图操作。

Playwright 入门详细教程

qq_40279560的博客

03-02

7827

Playwright 入门，详情教程

querySelectorAll和querySelector用法