
Page Agent:驻留在网页中的 GUI 代理
借助自然语言控制网页界面。🌐 英文 | 中文 🚀 演示 | 📖 文档 | 📢 Hacker News 讨论 | 𝕏 在 X 上关注
[page - agent - demo - 0227.mp4](未给出链接)
特性
- 🎯 轻松集成:无需浏览器扩展、Python 或无头浏览器,仅需页面内的 JavaScript 即可,所有操作都在网页内完成。
- 📖 基于文本的 DOM 操作:无需截图,也不需要多模态大语言模型(LLMs)或特殊权限。
- 🧠 自带大语言模型:可使用自己的大语言模型。
- 🐙 可选的 Chrome 扩展:适用于多页面任务,还有一个 MCP 服务器(测试版)可从外部进行控制。
使用场景
- SaaS AI 助手:只需几行代码,就能在产品中集成 AI 助手,无需重写后端。
- 智能表单填写:将原本需要 20 次点击的操作简化为一句话,非常适合 ERP、CRM 和管理系统。
- 无障碍访问:通过自然语言让任何网页应用都能实现无障碍访问,支持语音命令和屏幕阅读器,零门槛使用。
- 多页面代理:借助 Chrome 扩展,让你的网页代理能够跨浏览器标签工作。
- MCP:允许代理客户端控制你的浏览器。
快速开始
一行代码集成
使用免费的演示大语言模型来尝试 PageAgent 的最快方式:
⚠️ 仅用于技术评估。此演示 CDN 使用免费测试大语言模型 API。使用即表示你同意其使用条款。
- 全球镜像 URL:https://cdn.jsdelivr.net/npm/page - agent@1.10.0/dist/iife/page - agent.demo.js
- 中国镜像 URL:https://registry.npmmirror.com/page - agent/1.10.0/files/dist/iife/page - agent.demo.js
可添加 `?autoInit=false` 来加载脚本,而不自动创建演示代理,之后可以使用 `new window.PageAgent(...)` 来实例化它。
NPM 安装
npm install page - agent
import { PageAgent } from 'page - agent';const agent = new PageAgent({ model: 'qwen3.5 - plus', baseURL: 'https://dashscope.aliyuncs.com/compatible - mode/v1', apiKey: 'YOUR_API_KEY', language: 'en - US',});await agent.execute('Click the login button');
更多编程式使用方法,请查看 📖 文档。
精彩的 Page Agent 项目
用 PageAgent 做出了很酷的东西?在这里添加你的项目!提交一个 Pull Request 来分享你的项目。这些都是社区项目,不负责维护或背书,请自行决定是否使用。
| 项目 | 描述 |
|---|---|
| 你的项目? | 提交 PR 👏 |
贡献
欢迎社区贡献!请查看 `CONTRIBUTING.md` 获取贡献指南,查看 `docs/developer - guide.md` 了解本地开发工作流程。请阅读维护者关于原则和当前状态的说明。完全由机器人或 AI 生成且无实质性人工参与的贡献将不被接受。
许可证
本项目采用 MIT 许可证。
致谢
本项目基于优秀的 `browser - use` 项目开发。PageAgent 旨在增强客户端网页功能,而非用于服务器端自动化。DOM 处理组件和提示信息源自 `browser - use`:
- Browser Use 版权所有 (c) 2024 Gregor Zunic,采用 MIT 许可证。
衷心感谢 `browser - use` 项目及其贡献者在网页自动化和 DOM 交互模式方面所做的出色工作,正是他们的努力让本项目得以实现。
如果你觉得 PageAgent 有用,请给这个仓库点个 ⭐!
1845

被折叠的 条评论
为什么被折叠?



