XyClaw原生技能：AI确定性执行的操作系统级重构

原创于 2026-06-19 15:02:42 发布 · 419 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#原生技能 #确定性执行 #Windows自动化

服务器专栏收录该内容

2 篇文章

订阅专栏

1. “小龙虾”XyClaw不是又一个聊天框，而是AI第一次真正伸手去拧螺丝

“星宇智算发布‘小龙虾’XyClaw：51项原生技能，让AI从‘对话’走向‘执行’”——这个标题里最值得拆开揉碎看的，不是“星宇智算”，也不是“51项”，而是“ 原生技能 ”这四个字。我盯着它看了三分钟，因为过去三年里，我亲手调过27个所谓“能执行任务”的AI系统，其中23个在交付现场卡在同一个地方：用户说“把上周五销售报表导出成PDF发给财务部”，AI回：“好的，正在为您生成一份关于销售报表的分析报告……”——它压根没听懂“导出”“PDF”“发给”是三个独立动作，更不知道“财务部”对应的是邮箱列表里的第3个地址。

XyClaw的突破点就在这里：它不把“导出PDF”当作一句需要翻译成代码的自然语言，而是像人类操作员一样，把这件事拆解成一套肌肉记忆级别的原子动作——定位Excel进程 → 激活“文件→另存为”菜单 → 键入路径并选择.pdf格式 → 点击保存 → 启动邮件客户端 → 填写收件人、主题、附件 → 发送。这整套动作链，不是靠大模型临时推理拼凑出来的，而是被固化在系统内核里的 可寻址、可中断、可验证的确定性函数 。我拿到测试版后做的第一件事，就是关掉所有网络连接，让它在离线状态下完成“从本地数据库查出客户名单→生成带水印的合同PDF→用公司印章图片覆盖页眉→通过Outlook发送”。它完成了。全程没调用一次API，没连一次云端模型，所有动作都在本地Windows沙箱里跑完。那一刻我才意识到，“原生技能”不是营销话术，是工程上对“确定性执行”的重新定义。

这背后牵扯到三个被行业长期回避的硬骨头：一是 动作语义的不可压缩性 ——“点击右键”和“按住Ctrl+单击”在UI层面效果可能一致，但底层事件类型、坐标精度、时序容错率完全不同；二是 环境状态的强耦合性 ——同一个“打开浏览器”指令，在Chrome未安装、Edge被设为默认、IE已禁用的三台机器上，必须触发三条完全不同的执行路径；三是 失败边界的显式声明 ——传统Agent遇到弹窗报错就停摆，而XyClaw要求每个技能必须明确定义“什么情况下算成功”“什么错误可自动重试”“什么错误必须人工介入并返回具体错误码”。这已经不是AI应用层的问题，而是操作系统级的接口重构。

所以别被“51项”这个数字带偏了。真正关键的是这51个技能里，有37个覆盖了Windows桌面生态的 最小完备动作集 ：从模拟键盘输入（精确到扫描码级别）、鼠标移动（支持贝塞尔曲线插值）、窗口句柄捕获，到Office COM对象调用、PowerShell命令注入、注册表键值读写。剩下的14个，则是面向企业场景的“组合技”封装，比如“自动填单”技能，实际调用了窗口查找→文本框定位→OCR识别当前值→键盘输入→Tab跳转→回车提交这一串原子动作。这种设计思路，和当年Windows用Win32 API替代DOS中断调用一样，是在为AI建立一套可验证、可审计、可版本控制的执行基础设施。

提示：如果你正在评估RPA或Agent类产品，立刻做这个测试——让系统在无网络、无云端模型依赖的纯离线环境下，完成“打开记事本→输入当前时间→保存为timestamp.txt→关闭记事本”。90%的所谓“执行型AI”会在此卡死，因为它们的“执行”本质仍是调用远程LLM生成脚本，而非本地确定性动作。

2. 为什么是51项？拆解XyClaw技能树的三层架构逻辑

看到“51项原生技能”，很多人第一反应是“怎么不多搞点？”——这恰恰暴露了对执行系统本质的误解。我参与过两个同类项目的早期架构设计，最终都卡死在“技能膨胀陷阱”：团队疯狂堆砌功能点，结果发现第38个技能和第12个技能在底层调用同一组Windows API，只是参数不同；第45个“自动登录系统”技能，其实只是“输入用户名”“输入密码”“点击登录”三个基础技能的固定编排。XyClaw的51，不是拍脑袋定的数字，而是经过三轮生产环境压力测试后收敛出的 最小正交技能集 。下面我用自己实测过的7个高频技能为例，带你穿透这组数字背后的工程逻辑。

2.1 第一层：原子动作基元（19项）——操作系统级的“肌肉”

这是整个技能树的地基，全部直通Windows内核API，不经过任何中间抽象层。以“鼠标移动到指定坐标”为例，XyClaw提供了三种实现模式：

绝对坐标模式 ：直接调用 SetCursorPos(x,y) ，适用于已知屏幕分辨率且无缩放的环境；
相对坐标模式 ：调用 mouse_event(MOUSEEVENTF_MOVE,dx,dy,0,0) ，用于游戏或全屏应用中规避坐标系偏移；
窗口内坐标模式 ：先 FindWindow 获取句柄，再 ClientToScreen 转换坐标，最后 SetCursorPos ，专治各类自绘UI控件。

这三种模式在SDK里是三个独立函数，而非一个函数加参数开关。原因很现实：某银行客户在测试中发现，他们的核心交易系统使用DirectUI框架，绝对坐标会因DPI缩放失效，而窗口内坐标模式在多显示器扩展模式下又会因主副屏坐标系不一致导致偏移。如果强行合并，就必须在运行时动态探测环境，而探测本身就会引入毫秒级延迟——在高频交易场景下，这直接导致订单提交超时。所以XyClaw的选择是：宁可多写19个函数，也不在一个函数里塞if-else。

其他原子基元包括：

SendKeyboardInput(ScanCode, Flags) —— 不是字符串输入，而是精确到硬件扫描码的模拟，解决Alt+Tab切换时焦点丢失问题；
ReadRegistryValue(HKEY, Path, ValueName) —— 支持REG_SZ/REG_DWORD/REG_BINARY全类型解析，避免字符串强制转换导致的权限拒绝；
GetProcessList() —— 返回含PID、内存占用、启动路径的完整结构体，而非简单进程名列表，方便后续精准杀进程。

注意：所有原子基元函数均内置 执行超时熔断 。例如 SendKeyboardInput 默认500ms超时，超时后自动返回错误码 ERR_INPUT_TIMEOUT 而非静默失败。这是和传统RPA工具最根本的区别——后者通常无限等待目标控件出现，导致整个流程卡死。

2.2 第二层：应用协议适配器（22项）——让AI读懂软件的“方言”

有了肌肉，还得学会说话。Windows上每个主流软件都有自己的“交互协议”：Excel用COM对象，微信用UIAutomation，Chrome用DevTools Protocol，而老旧的ERP系统可能只认Windows消息循环。XyClaw的22项协议适配器，本质是为这些异构系统定制的翻译官。

以“Excel数据提取”技能为例，它实际包含三条并行路径：

COM路径 ：当Excel进程存在且启用COM时，调用 Excel.Application.Workbooks.Open() 直接读取，速度最快（实测10万行数据读取耗时<800ms）；
UIA路径 ：当COM被禁用（常见于金融客户安全策略），则启动UIAutomation，通过 FindFirst 定位表格控件，再逐行 GetCurrentPattern 获取单元格值，速度较慢但100%兼容；
剪贴板路径 ：当以上两种均失败，自动执行Ctrl+A→Ctrl+C，从剪贴板解析TSV格式数据，作为保底方案。

关键在于，这三条路径不是按顺序尝试，而是 并发探测+权重决策 。XyClaw会在启动时扫描当前环境：检测Excel版本、COM注册状态、UIA服务是否运行、剪贴板历史长度。根据预设权重矩阵（COM路径权重0.6，UIA路径0.3，剪贴板0.1），实时选择最优路径。我在某证券公司实测时发现，他们的Excel被策略锁定COM，但UIA服务因防病毒软件拦截而响应缓慢，系统自动降级到剪贴板路径，虽耗时增加3倍，但保证了任务100%完成。

其他协议适配器包括：

Outlook邮件协议栈 ：支持MAPI/Exchange Web Services/SMTP三模自动切换，解决企业邮箱混合部署问题；
SAP GUI脚本引擎 ：直接注入SAP Script命令，绕过UIAutomation在SAP复杂树形控件中的识别失败；
Citrix虚拟桌面桥接器 ：在VDI环境中，将本地鼠标坐标实时映射到虚拟机屏幕坐标，解决远程桌面场景下的定位漂移。

2.3 第三层：业务语义组合技（10项）——把动作变成“能听懂人话”的服务

最后10项，才是用户真正接触的“技能”。它们不直接调用API，而是将前两层能力封装成符合业务直觉的接口。以“自动填单”技能为例，其函数签名是：

def auto_fill_form(
    app_name: str,           # 目标应用名称（"Chrome", "SAPGUI", "OracleForms"）
    form_template: str,      # 表单模板ID（关联预存的字段映射规则）
    data_dict: Dict[str, Any] # 字段名→值的字典
) -> ExecutionResult

这里的关键创新在于 form_template 。XyClaw不提供“填写用户名”“填写密码”这样的原子技能，而是要求用户先用配套的 Form Mapper工具 录制一次真实填单过程。该工具会自动分析：

当前窗口的UI层级结构（用UIA Tree Dump）；
每个输入框的Accessibility Name、Automation ID、控件类型；
字段间的Tab顺序与逻辑分组；
提交按钮的触发条件（如“密码强度达标后才启用”）。

生成的模板文件是一个JSON，包含字段定位规则（支持XPath-like语法）、值注入方式（键盘输入/下拉选择/日期控件专用API）、前置校验逻辑。当 auto_fill_form 被调用时，系统不是机械执行录制轨迹，而是根据 data_dict 动态匹配字段，智能选择注入方式——比如对日期字段，自动调用 SetDateControlValue() 而非模拟键盘输入，避免格式错误。

这10项组合技覆盖了财务、HR、供应链三大高频场景：

财务类 ：发票验真（调用国税局接口+OCR校验+结果写入ERP）、银行回单下载（网银UI自动化+PDF解析）；
HR类 ：入职信息同步（从HRIS导出→填充OA系统→触发审批流）、考勤异常处理（从钉钉API取数据→比对规则→生成申诉单）；
供应链类 ：采购订单生成（从ERP取BOM→调用供应商门户→填写物流信息→电子签章）。

实测心得：不要试图用组合技覆盖所有场景。我们在某制造企业落地时，客户坚持要“自动处理供应商邮件询价”，我们建议拆解为“邮件解析（用NLP模型）+报价单生成（用Excel技能）+邮件发送（用Outlook技能）”三步，而非强求一个“询价处理”组合技。结果开发周期缩短60%，且每步都可单独监控和调试。

3. “执行”的真相：XyClaw如何解决确定性、可观测性、可维护性三大死亡难题

所有宣称“让AI执行任务”的系统，最终都会撞上三堵墙： 确定性之墙 （同样的指令在不同环境结果不同）、 可观测性之墙 （任务卡在哪一步完全黑盒）、 可维护性之墙 （改一个字段就要重录整个流程）。XyClaw的51项技能之所以能落地，是因为它用一套操作系统级的设计哲学，把这三堵墙拆成了可管理的模块。下面用我在某省级政务中心的真实排障案例，还原它是如何破局的。

3.1 确定性：用“环境指纹”替代“环境假设”

传统RPA工具的失败，80%源于对环境的错误假设。比如一个“登录OA系统”流程，隐含假设：

Chrome是默认浏览器；
OA网址已收藏在书签栏；
登录页面的用户名输入框ID永远是 #username ；
验证码图片位于 <img src="/captcha.jpg"> 。

一旦政务中心统一升级Chrome到120版本，或OA系统前端重构，整个流程就崩。XyClaw的解法是： 放弃假设，改为实时测绘 。

每个技能执行前，XyClaw会生成当前环境的“指纹”（Fingerprint），包含：

系统层 ：Windows Build号、DPI缩放比例、多显示器配置（主屏/副屏分辨率、位置偏移）；
应用层 ：目标进程的完整路径、版本号、加载的DLL列表、UIA Provider状态；
界面层 ：当前窗口的UIA Tree快照（仅关键节点，约200KB）、所有输入控件的Accessibility属性哈希值。

这个指纹不是用来“匹配预设模板”，而是作为 执行路径的决策依据 。仍以登录为例：

若指纹显示Chrome版本≥115且UIA Provider正常，则走UIA路径；
若指纹显示Chrome被禁用但Edge存在，则自动切换到Edge驱动；
若指纹中用户名输入框的Automation ID是 txtUserLogin 而非 #username ，则动态更新定位器，无需人工干预。

我在政务中心遇到的真实故障是：新部署的Win11系统启用了“增强型安全配置”，导致Chrome的 --disable-web-security 参数失效，UIA无法注入JavaScript。XyClaw的环境指纹检测到 UIA_Provider_Status=DISABLED ，自动降级到“图像识别+坐标点击”路径，并在日志中标记 FALLBACK_REASON=UIA_DISABLED 。整个过程耗时增加1.8秒，但任务100%完成。

3.2 可观测性：把执行过程变成“可回放的录像带”

当一个任务失败，传统工具只给你一行日志：“Element not found”。XyClaw的日志系统，本质上是一套 执行过程录像带 。它记录的不是“做了什么”，而是“在什么状态下做了什么”。

以“导出报表”技能为例，其日志结构包含四层：

宏观轨迹层 ：按时间戳列出所有调用的原子技能（ ClickAt(120,340) , SendKeys("report.xlsx") , WaitForWindow("Save As") ）；
微观状态层 ：每个动作前后的关键状态快照（ Before: WindowRect=(0,0,1920,1080), After: WindowRect=(0,0,1920,1080) ）；
证据层 ：对关键动作附带截图（仅差异区域，如点击前后的按钮状态对比图）；
诊断层 ：AI自动生成的失败归因（ Failed to find "Save" button because its AutomationId changed from "btnSave" to "cmdSaveExport" ）。

这套日志最颠覆的点在于： 所有截图和状态快照都带时间戳水印，且可直接在XyClaw Studio中回放 。运维人员不用看日志文字，点开回放视频，就能看到鼠标在哪个坐标悬停了2秒（说明控件未加载），然后点击了错误位置（说明坐标偏移）。我们在某税务局上线首周，73%的故障通过回放视频5分钟内定位，而传统方式平均需2小时。

提示：XyClaw Studio的回放功能支持“加速播放”和“断点调试”。你可以把回放拖到任意帧，右键点击界面上的任意元素，查看其当时的UIA属性、坐标、可见性状态。这相当于给每个像素都装了调试探针。

3.3 可维护性：用“技能版本化”终结“改一处崩全局”

RPA最大的维护噩梦是“牵一发而动全身”。改一个字段的定位器，可能导致整个表单填写流程失效。XyClaw用 技能版本化（Skill Versioning） 彻底解决这个问题。

每个技能（无论是原子基元还是组合技）都有独立版本号（遵循SemVer 2.0），且版本间严格隔离：

v1.2.0的 ClickAt 函数，永远调用 SetCursorPos + mouse_event ；
v2.0.0的 ClickAt 函数，可能改用 SendInput API以支持高DPI；
旧流程调用的 ClickAt@v1.2.0 ，不会受v2.0.0发布影响。

更关键的是，组合技的模板（如 form_template ）也版本化。当OA系统升级导致字段ID变更，运维只需：

用Form Mapper重新录制，生成 oa_login_v2.json ；
在XyClaw Studio中将 auto_fill_form 技能的模板引用，从 oa_login_v1.json 切换到 oa_login_v2.json ；
一键发布，旧流程继续用v1，新流程用v2，零冲突。

我们在某银行实施时，核心系统每月升级，但XyClaw的维护工作从原来的每周20人时，降到每月2人时。因为所有变更都被约束在单个技能版本内，不再有“全局污染”。

4. 落地实战：在制造业MES系统中，用XyClaw实现“缺陷工单自动闭环”

理论讲完，现在来一场硬核实战。我在华东一家汽车零部件厂，用XyClaw实现了“质检缺陷工单自动闭环”全流程。这不是PPT演示，而是每天处理237张工单的真实产线系统。整个方案只用到了XyClaw的17项技能（占总数的33%），却解决了过去需要3个岗位协同的痛点。下面我把实施过程拆解成可复用的步骤，所有配置参数和代码片段均来自真实部署。

4.1 场景痛点与需求拆解

该厂的MES系统（用的是国产鼎捷TOPMES）存在典型断点：

质检员在PDA扫描缺陷后，数据进入MES，但 不自动触发维修工单 ；
维修组需每天上午9点手动导出Excel缺陷清单，再人工创建维修单；
维修完成后，需在MES中手动填写“维修措施”“更换零件”“验收结果”， 无自动回传机制 。

导致问题：平均工单延迟11.3小时，维修措施描述不规范（如“修好了”“弄了一下”），零件更换记录缺失率42%。

我们的目标：构建端到端闭环，要求：

缺陷扫描后≤5分钟生成维修工单；
维修单字段100%自动填充（设备编号、缺陷代码、发现时间）；
维修完成后，自动将维修记录、零件批次号、验收照片回传MES；
全流程无需人工干预，失败时自动告警。

4.2 技能选型与组合设计

基于XyClaw的51项技能，我们只选用以下17项，构成最小可行闭环：

技能类型	技能名称	选用理由	关键参数配置
原子基元	`ReadRegistryValue`	读取PDA设备唯一标识，用于关联缺陷数据	`HKEY_LOCAL_MACHINE\SOFTWARE\MES\PDA_ID`
原子基元	`ExecutePowerShell`	调用MES提供的PowerShell接口，避免UI自动化不稳定	`-Command "& 'C:\MES\api.ps1' -Action GetDefects -Hours 1"`
协议适配器	`ExcelDataExtract`	解析MES导出的缺陷Excel，支持合并单元格和公式	`sheet_name="DefectList", header_row=2`
协议适配器	`SAPGUI_ScriptInject`	鼎捷TOPMES基于SAP GUI框架，此适配器最稳定	`script_content="SET PARAMETER ID 'MAT' FIELD 'ZMATERIAL'"`
组合技	`auto_fill_form`	填写维修单，模板已预置设备字段映射	`form_template="mes_repair_v3.json"`
组合技	`ocr_extract_text`	从维修人员手机上传的照片中提取零件批次号	`model="industrial_parts_v2"`

特别说明 ocr_extract_text ：XyClaw内置的工业OCR模型，专为金属铭牌、标签打印优化，支持反光、污渍、低分辨率场景。我们用2000张真实工厂照片微调后，批次号识别准确率达99.2%，远超通用OCR。

4.3 核心流程代码与关键配置

整个闭环由一个Python脚本驱动（XyClaw SDK提供），以下是核心逻辑（已脱敏）：

from xyclaw import XyClawEngine
from xyclaw.skills import ExcelDataExtract, SAPGUI_ScriptInject, auto_fill_form

# 初始化引擎（自动加载环境指纹）
engine = XyClawEngine(
    config_path="C:/MES/config/xyclaw_config.yaml",
    log_level="DEBUG"
)

# 步骤1：每5分钟轮询MES获取新缺陷
def get_new_defects():
    # 调用PowerShell接口，返回JSON格式缺陷列表
    result = engine.execute_skill(
        "ExecutePowerShell",
        command="& 'C:\\MES\\api.ps1' -Action GetDefects -Hours 1"
    )
    return json.loads(result.stdout)

# 步骤2：解析Excel，提取关键字段
def parse_defect_excel(file_path):
    extractor = ExcelDataExtract(
        sheet_name="DefectList",
        header_row=2,
        column_mapping={
            "设备编号": "equipment_id",
            "缺陷代码": "defect_code",
            "发现时间": "found_time",
            "质检员": "inspector"
        }
    )
    return extractor.extract(file_path)

# 步骤3：自动创建维修工单（核心！）
def create_repair_order(defect_data):
    # 动态生成表单数据字典
    form_data = {
        "equipment_id": defect_data["equipment_id"],
        "defect_code": defect_data["defect_code"],
        "found_time": defect_data["found_time"].strftime("%Y-%m-%d %H:%M"),
        "priority": "HIGH" if defect_data["severity"] == "CRITICAL" else "MEDIUM"
    }
    
    # 调用组合技，传入预置模板
    result = engine.execute_skill(
        "auto_fill_form",
        app_name="SAPGUI",
        form_template="mes_repair_v3.json",
        data_dict=form_data
    )
    
    # 关键：获取生成的工单号（从SAP GUI状态栏读取）
    order_id = engine.execute_skill(
        "ReadUIAText",
        control_type="StatusBar",
        search_pattern="工单号：(.+?)$"
    )
    return order_id.group(1) if order_id else None

# 步骤4：维修完成后，回传数据（含OCR）
def upload_repair_record(order_id, photo_path):
    # OCR识别照片中的零件批次号
    batch_no = engine.execute_skill(
        "ocr_extract_text",
        image_path=photo_path,
        model="industrial_parts_v2"
    )
    
    # 将批次号、维修措施写入MES
    script_content = f"""
    SET PARAMETER ID 'ORD' FIELD '{order_id}'
    SET PARAMETER ID 'BAT' FIELD '{batch_no}'
    SET PARAMETER ID 'MEAS' FIELD '已更换轴承，型号SKF6204'
    """
    
    engine.execute_skill(
        "SAPGUI_ScriptInject",
        script_content=script_content
    )

# 主循环
while True:
    defects = get_new_defects()
    for defect in defects:
        try:
            order_id = create_repair_order(defect)
            if order_id:
                logger.info(f"工单{order_id}创建成功")
                # 启动监听维修完成事件（此处简化为定时检查）
                wait_for_repair_completion(order_id)
        except Exception as e:
            alert_ops(f"工单创建失败：{e}")
    time.sleep(300)  # 5分钟轮询

4.4 实施中的血泪教训与避坑指南

这套方案上线后，我们踩了三个深坑，每个都值得你抄进笔记本：

坑1：SAP GUI的“会话超时”陷阱
XyClaw的 SAPGUI_ScriptInject 技能默认复用现有会话，但MES系统设置30分钟无操作自动登出。结果凌晨2点，所有工单创建失败。解决方案：在 create_repair_order 函数开头，强制插入 engine.execute_skill("SAPGUI_Login", username="mes_bot", password="xxx") ，并设置会话保持心跳（每25分钟执行一次空操作）。

坑2：Excel公式导致的数据错位
MES导出的Excel中，“缺陷代码”列实际是 =VLOOKUP(A2,CodeTable!A:B,2,FALSE) 公式。 ExcelDataExtract 默认读取显示值，但当CodeTable工作表未激活时，公式返回 #N/A 。解决方案：在 ExcelDataExtract 初始化时，添加 force_calculation=True 参数，强制重算所有公式。

坑3：OCR在强光下的误识别
维修人员用手机拍照时，车间顶灯在金属零件表面形成强反光，导致OCR把“BATCH-2024-0876”识别成“BATCH-2024-087G”。解决方案：在 ocr_extract_text 调用前，先用 engine.execute_skill("EnhanceImage", method="deglare", image_path=photo_path) 进行光学去眩光处理，准确率提升至99.7%。

最后分享一个技巧：XyClaw的 auto_fill_form 技能支持“字段级重试”。当某个字段（如设备编号）填写失败，它不会整单回滚，而是对该字段单独重试3次（间隔1秒），同时记录每次失败的UIA属性快照。我们在调试时，正是靠这三次快照，发现了MES系统在高并发时，设备编号输入框的 IsEnabled 属性会短暂变为 False ，从而针对性增加了等待逻辑。

5. 不是终点，而是起点：XyClaw之后，执行型AI的演进路线图

XyClaw发布后，我收到最多的问题是：“它和AutoGen、LangChain的Agent框架比，优势在哪？”我的回答很直接： 它们解决的是不同维度的问题 。LangChain是“如何让AI思考”，XyClaw是“如何让AI动手”。就像教一个厨师做菜，LangChain在教他看菜谱、理解火候、搭配食材，而XyClaw在教他握刀、切丝、颠勺、控油——前者决定菜好不好吃，后者决定菜能不能做出来。

但这绝不意味着XyClaw是终极答案。基于三个月的深度使用，我梳理出执行型AI接下来必然经历的三个演进阶段，每个阶段都对应着XyClaw当前的局限与突破方向：

5.1 阶段一：从“确定性执行”到“韧性执行”（12-18个月）

XyClaw的51项技能，本质是 确定性状态机 ：输入明确，输出明确，失败边界明确。但真实世界充满模糊性。比如“找到提交按钮”，在网页中可能是 <button>提交</button> ，也可能是 <input type="image" alt="提交"> ，甚至是一张背景图上的文字。XyClaw目前依赖预设的UIA属性或XPath，一旦变化就失败。

下一阶段的突破，将是 多模态状态感知 ：让AI同时看（视觉）、听（屏幕阅读器语音流）、读（DOM/API响应）、触（鼠标悬停反馈），用多源信息交叉验证目标状态。例如，当UIA找不到“提交”按钮时，自动截取屏幕局部，用轻量视觉模型识别按钮区域，再结合鼠标移动时的 cursor:pointer 样式变化确认可点击性。这需要把CV模型嵌入XyClaw的执行环路，而非事后分析。

5.2 阶段二：从“单点执行”到“跨系统协同执行”（18-36个月）

当前XyClaw的技能，都是针对单一应用或协议。但真实业务是跨系统的：维修工单在MES，零件库存在WMS，采购申请在SRM，审批流在OA。XyClaw现在需要人工编写胶水代码来串联，而未来应该是 执行意图的自动编排 。

设想这样一个指令：“协调处理设备A的轴承故障，确保48小时内恢复生产”。AI应自动：

查MES获取故障详情；
查WMS确认轴承库存（若不足，触发采购）；
查SRM生成采购单；
查OA发起紧急审批；
审批通过后，通知维修组并预约停机窗口。

这要求XyClaw进化出 跨系统状态图谱 ：把每个系统的API、UI、数据库，抽象成统一的状态节点（如“WMS_库存_轴承_SKF6204”），再用图神经网络学习节点间的因果关系。这不是简单的API编排，而是构建企业数字孪生的操作层。

5.3 阶段三：从“人类指令执行”到“自主任务涌现”（36+个月）

最远的终局，是AI不再等待指令，而是主动发现执行机会。比如，XyClaw持续监控MES的缺陷趋势数据，当发现“某型号轴承缺陷率连续3天超阈值”，自动触发根因分析流程：

调取近7天所有该轴承的维修记录；
关联设备运行参数（温度、振动、负载）；
生成《轴承批量缺陷预警报告》，并附上备件采购建议。

这需要XyClaw具备 执行记忆与模式归纳能力 ：把每一次成功/失败的执行过程，沉淀为可检索、可复用的“执行经验包”（Execution Experience Pack）。当新任务出现，系统不是从零规划，而是匹配历史经验包，再微调参数。这已经超越工具范畴，成为组织的操作系统。

回到XyClaw本身，它的真正价值，或许不在于那51项技能，而在于它第一次把“执行”这件事，从玄学变成了工程学。它用Windows API的确定性，对抗大模型的不确定性；用技能版本化的严谨，对抗业务流程的混沌；用环境指纹的实时测绘，对抗IT环境的飘移。在我办公桌的便签纸上，写着这样一句话：“真正的AI生产力，不是它能聊多好，而是它敢不敢在没人看着的时候，稳稳地按下那个回车键。”XyClaw，是第一个让我相信它敢的系统。