终极指南:Self-Operating Computer提示工程全解析——从系统提示到操作决策的完整路径

终极指南:Self-Operating Computer提示工程全解析——从系统提示到操作决策的完整路径

【免费下载链接】self-operating-computer A framework to enable multimodal models to operate a computer. 【免费下载链接】self-operating-computer 项目地址: https://gitcode.com/gh_mirrors/se/self-operating-computer

Self-Operating Computer是一个创新的框架,它使多模态模型能够自主操作计算机,通过提示工程实现从指令到具体操作的精准转化。本文将详细解析其提示工程的核心机制,帮助新手快速掌握从系统提示设计到操作决策的全流程。

核心提示类型:驱动计算机自主操作的引擎

Self-Operating Computer的提示系统主要包含三种核心类型,每种类型针对不同的操作场景进行了优化:

标准系统提示(SYSTEM_PROMPT_STANDARD)

这是默认的提示模板,定义了四种基本操作:点击(click)、输入(write)、快捷键(press)和完成(done)。它要求模型基于屏幕内容和目标任务,以JSON格式输出操作序列。

带标签系统提示(SYSTEM_PROMPT_LABELED)

当系统检测到屏幕元素已被标记(如红色边界框和ID)时使用此提示。它允许模型直接通过标签ID(如~x)定位点击目标,提高操作精度。

OCR增强系统提示(SYSTEM_PROMPT_OCR)

结合OCR技术,使模型能够基于屏幕文本内容做出决策。它允许通过文本描述定位点击目标,特别适用于界面元素识别场景。

Self-Operating Computer主界面 图:Self-Operating Computer的主界面,展示了"Ask a computer to do anything"的核心功能

提示工程实战:关键组件与设计原则

操作指令结构设计

所有操作指令遵循统一的JSON数组格式,每个操作对象包含三个核心字段:

  • thought:解释操作理由的自然语言描述
  • operation:操作类型(click/write/press/done)
  • 操作参数:根据操作类型不同,可包含x/y坐标、content文本内容、keys快捷键组合或summary完成总结
[
  { "thought": "聚焦浏览器地址栏", "operation": "press", "keys": ["command", "l"] },
  { "thought": "输入网址", "operation": "write", "content": "https://news.ycombinator.com/" },
  { "thought": "提交访问", "operation": "press", "keys": ["enter"] }
]

跨平台适配机制

提示系统会自动检测操作系统类型(Mac/Windows/Linux),并调整相应的快捷键和操作方式。例如:

  • Mac系统使用command键,Windows/Linux使用ctrl
  • Mac使用command+space调出搜索,Windows使用win

相关实现可参考operate/models/prompts.py中的get_system_prompt函数。

环境配置:开启计算机操作权限

在使用Self-Operating Computer前,需要确保系统授予必要的权限,这是提示工程能够实际生效的前提条件:

屏幕录制权限设置

  1. 打开系统"安全与隐私"设置
  2. 进入"隐私"标签页
  3. 选择"屏幕录制"选项
  4. 勾选终端应用(Terminal)

屏幕录制权限设置 图:在系统设置中启用终端的屏幕录制权限

辅助功能权限设置

  1. 在同一设置窗口中选择"辅助功能"选项
  2. 同样勾选终端应用,允许其控制计算机

辅助功能权限设置 图:授予终端控制计算机的辅助功能权限

API密钥配置

首次运行时,系统会提示输入OpenAI API密钥,这是模型能够处理提示并生成操作指令的必要条件。

API密钥输入界面 图:API密钥输入界面,用于连接OpenAI服务

实战案例:从提示到操作的完整流程

让我们通过一个具体案例,看看Self-Operating Computer如何将提示转化为实际操作:

目标任务:打开Google Chrome并访问指定网站

提示处理流程

  1. 系统提示初始化:根据当前操作系统选择合适的提示模板
  2. 模型分析目标:理解需要打开浏览器并访问网站
  3. 生成操作序列:
    • 按下系统搜索快捷键(如Mac的command+space
    • 输入"Google Chrome"并按回车
    • 使用command+l聚焦地址栏
    • 输入网址并按回车

这个过程充分展示了提示工程如何将高层目标分解为计算机可执行的具体步骤。

提示优化技巧:提升操作成功率的关键策略

明确的思考过程描述

thought字段中提供详细的推理过程,有助于模型保持操作的连贯性和逻辑性,特别是在复杂任务中。

渐进式操作设计

将复杂任务分解为一系列简单操作,避免单步操作过于复杂。例如,先打开浏览器,再访问网站,而不是尝试一步完成。

错误恢复机制

当某个操作失败时,提示系统应能识别并尝试替代方案,而不是重复相同的操作。这需要在提示设计中加入故障排除的思考框架。

快速开始:搭建你的自主操作环境

要开始使用Self-Operating Computer,只需按照以下步骤操作:

  1. 克隆仓库:git clone https://gitcode.com/gh_mirrors/se/self-operating-computer
  2. 安装依赖:pip install -r requirements.txt
  3. 运行主程序:python operate/main.py
  4. 按照提示输入API密钥并授予系统权限

通过以上步骤,你就可以开始体验提示工程驱动的计算机自主操作能力了。

Self-Operating Computer的提示工程体系为AI模型与计算机交互提供了一套标准化框架,无论是简单的键盘鼠标操作,还是复杂的多步骤任务,都能通过精心设计的提示实现高效自动化。随着提示工程的不断优化,我们有理由相信,AI自主操作计算机的能力将迎来更大的突破。

【免费下载链接】self-operating-computer A framework to enable multimodal models to operate a computer. 【免费下载链接】self-operating-computer 项目地址: https://gitcode.com/gh_mirrors/se/self-operating-computer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值