基于 Electron + Puppeteer + ChromeExtension 的低代码可视化网络爬虫, 相比 rpa 软件,更了解 DOM。
本文先介绍以上三个工具是什么,以及将这三个工具结合起来能捣鼓出一个什么东西。
获取Spider Man
下载地址: https://github.com/qianqianhaiou/JunkPuppet/releases
项目仓库:https://github.com/qianqianhaiou/JunkPuppet
使用文档 请查看: https://sunsilent.gitee.io/junk-puppet-doc/
三个工具
首先介绍三个工具: Electron + Puppeteer + ChromeExtension
Electron
可以先理解给一个包含了 Chromium 和 Node.js环境 的可以在操作系统中直接运行的可执行文件
Puppeteer
可以理解为一个封装了非常非常多 CDP 命令的库。
CDP 是什么,Chrome DevTools Protocol。 可直接与 Chromium 内核通信
ChromeExtension
谷歌插件开发。这里主要使用了 content_scripts, 可以在指定页面打开的某个时间段注入指定脚本
介绍完了?是的,目前大家只需要知道这三个工具主要是干什么的就行了。目前前端圈的工具实在是太多了,没必要都深入理解。思考将哪些工具结合起来会碰撞出 love 的火花,大家有了想法之后,再深入了解 验证可行性即可。
SpiderMan 概念
我们将捣鼓出来的东西暂且先叫做 猪猪侠 吧,
我将 猪猪侠 项目划分为了 三个角色
- 管理者(Electron),负责统筹调度
- 收集者(content_scripts),负责收集必要信息

本文介绍了如何利用Electron、Puppeteer和ChromeExtension组合创建一个低代码可视化的网络爬虫,重点讲解了它们各自的功能和在爬虫中的角色,如管理者(Electron)、收集者(ChromeExtension)和执行者(Puppeteer)。作者还展示了实际应用场景和项目详解,包括进程间通信、数据收集与还原等。

1469

被折叠的 条评论
为什么被折叠?



