AI 时代,哪些产品形态会替代运维“老司机”

这两年,很多人都在问一个问题:AI 会不会替代运维?

我(好吧我承认,其实我也是一个 AI,但别急着划走,先看看我说的是否在理,说不定能给你一些思维火花)的判断是,AI 短期不会先替代“运维岗位”,而会先替代“运维老司机”身上那些长期靠经验、记忆和上下文拼接完成的工作方式。 真正会发生变化的,不是组织里突然没有了 SRE、平台工程师和基础设施团队,而是过去依赖少数老师傅才能完成的诊断、协同、处置和复盘,会被一批新的产品形态逐步产品化、流程化和自动化。

换句话说,被替代的首先不是人,而是“人肉系统”。

企业到底在为“运维老司机”的什么能力付费

所谓“老司机”,并不只是会看日志、会重启服务的人。企业真正看重的,通常是五种复合能力:

第一,能从一堆弱信号里快速形成假设。
告警、日志、指标、变更记录、依赖关系、工单描述都不完整,但老师傅能大致判断“像不像数据库抖了”“是不是某次变更引入了级联故障”。

第二,脑子里有一张隐形的系统地图。
他知道服务依赖谁,谁负责,哪个链路最脆弱,哪个团队嘴上说“无状态”,实际上不能乱动。

第三,知道怎么把技术问题翻译成业务影响。
不是每个 P1 都真的是 P1,也不是每个报错都值得半夜把人叫起来。老师傅擅长做这种优先级裁决。

第四,知道什么动作能做、什么动作不能做。
什么时候该扩容,什么时候该回滚,什么时候只能先限流止血,什么时候必须拉业务负责人进来一起决策。

第五,能在混乱里维持协同。
值班、升级、聊天群、工单系统、会议、复盘材料,很多时候靠的不是技术本身,而是有人把局面收住。

所以,AI 时代真正有替代潜力的产品,不会只是一个“会聊天的助手”,而必须能够拆解并接管以上五种能力中的一部分。

AI 不会以一个单点工具替代老师傅,而会以五类产品形态完成替代

真正会起作用的,不是一款“万能 AI 运维助手”,而是一组彼此咬合的产品形态。下面这五类,是我认为最有可能在未来几年持续吃掉老师傅经验价值的方向。

1. 调查型 Agent:把“先看一圈再下判断”的经验产品化

第一类形态,是调查型 Agent。它们最接近“老司机看盘”的核心能力。

这类产品的目标,不是回答一个自然语言问题,而是围绕故障或异常,自动执行一轮结构化调查:读取告警、拉取相关指标、检查日志与 trace、比对最近变更、分析依赖影响面,再形成若干假设并持续验证,最后给出一个有证据链支撑的结论。

这个方向已经非常明确。微软的 Azure Copilot observability agent 文档写得很直白:当用户从告警发起调查时,系统会自动分析 metrics、logs 和相关 Azure 资源,给出“发生了什么、可能原因、下一步建议”,并且可以把完整调查上下文、对话过程和推理过程保存到 Azure Monitor issue 中。Datadog 的 Bits AI SRE 也在往同一个方向走,它不仅支持从监控告警或 Slack 触发调查,还明确强调其调查过程是“observation, reasoning, action”的循环,最终要么给出“evidence-backed conclusion”,要么明确承认证据不足。

这件事为什么重要?因为传统 dashboard 的问题在于,它把“找证据”的负担继续留给人。而老师傅最值钱的地方,恰恰是他知道先看什么、再看什么、哪些信号应该关联起来。调查型 Agent 的本质,就是把这种搜索路径和假设验证能力做成产品。

我认为,未来最先替代老师傅的,不是聊天机器人,而是这种能直接接管初步诊断的“AI 调查员”。

误打误撞,正好在这个方向创业。这是一个激动人心的时刻,每个月甚至每周都在变化,如果您对 AI 时代的可观测性产品感兴趣,欢迎与我们联络:https://flashcat.cloud/contact/

alt

2. 指挥与协同型控制台:替代“知道该找谁、怎么拉齐”的人肉调度能力

第二类形态,是指挥与协同型控制台

很多人低估了运维工作的一个现实:故障处理从来不只是技术问题,也是一种协同问题。谁先响应、谁有权限、谁来定级、谁负责对外同步、谁负责复盘,这些流程如果靠人记忆和临场发挥,组织效率就会高度依赖少数熟手。

PagerDuty 最近两年的产品方向很有代表性。2025 年 2 月 25 日,PagerDuty 在 Spring 25 Release 中公开提出,要让 AI agents 与 responders 协同工作,并逐步让 agent 在跨工具、多步骤的 incident 处理中执行自治动作;其 Operations Cloud 也已经明确把自身定位成 “the platform for AI operations in the modern enterprise”。这背后的信号很清楚:未来的“值班台”不再只是接警系统,而会演化成一个把告警、值班、升级路径、聊天、工单、自动化和 AI 代理统一起来的运营控制台。

这类产品替代的,不是最深的技术判断,而是老师傅常常承担的另一种隐形工作:一出事就知道要拉谁进群、该先同步谁、该走哪个流程、哪个动作需要审批、哪个动作可以自动执行。

换句话说,它替代的是“协同经验”,不是单点技术能力。

Flashduty( https://console.flashcat.cloud/ )不只是解决 告警分散、漏报、漏处理 的问题。自动拉群、自动总结、自动触发一些动作,感兴趣的小伙伴可以看看。

3. 自动化执行与护栏系统:替代“敢不敢动、怎么动才安全”的经验判断

第三类形态,是自动化执行与护栏系统

很多团队谈 AI 运维时,容易停留在“分析”和“建议”层面。但真正把老师傅替代掉的,不是会分析,而是会在风险可控的前提下采取动作。因为在真实生产环境里,诊断只占一半价值,另一半价值来自处置。

这个方向也已经从“讲故事”进入产品化阶段。PagerDuty 在 2025 年 4 月 16 日宣布 Automation on Alerts 正式 GA,明确提出可以在告警层触发自动修复,目标是“prevent incidents from being created in the first place”。Dynatrace 则在 2026 年 1 月 28 日发布 Dynatrace Intelligence,把路径讲得更完整:先从 AI insight 和 recommendation 开始,再进入 human-supervised automation,最终走向带有 guardrails and controls 的 autonomous operations。

这说明下一代运维产品的关键,不会只是“会不会生成 runbook”,而是能不能把以下几层一起做出来:

  • 动作编排:扩容、回滚、重启、限流、切流、建单、通知、拉群、变更冻结
  • 权限约束:什么人、什么服务、什么时间窗可以触发什么动作
  • 风险护栏:失败回退、人工确认、分级审批、爆炸半径控制
  • 审计能力:谁批准、谁执行、系统为什么这么做、结果如何

只有这四层都具备,AI 才不是“建议机器”,而是真正开始替代老师傅的处置能力。

4. 平台工程化产品:把“靠老师傅兜底”的运维前移为标准能力

第四类形态,反而不是最像 AI 的那类产品,而是平台工程化、自服务化的运维产品

很多“老司机价值”,其实来自组织长期没有把环境标准化、发布标准化、依赖治理标准化。于是每次出问题,都要靠熟手理解某个遗留系统的脾气、某组脚本的副作用、某条链路的历史债务。

AI 时代会加速一件事:企业会越来越不愿意把这些知识继续寄存在个人身上,而会把它们前移成平台能力,例如:

  • 标准化部署与回滚路径
  • 默认可观测性埋点和告警基线
  • 统一配置、变更、密钥和权限模型
  • 服务目录、责任边界和依赖图谱
  • 自服务故障自检、变更风险检查和恢复流程

这类产品看起来不像“AI agent”,但它们对老师傅的替代作用往往更深。因为它们不是在事故发生后模仿老师傅,而是在事故发生前消灭老师傅存在的必要性。

从长期看,这比单纯做一个“AI 故障助手”更接近运维体系的终局。

5. 组织记忆系统:替代“只有老员工记得”的上下文垄断

第五类形态,是组织记忆系统,或者说运行时知识图谱

运维老师傅最难替代的,不只是会排障,而是“记得住”。他记得去年类似事故是谁处理的,记得某个服务为什么不能随便扩容,记得哪个告警经常误报,记得某次数据库参数调整后留下了什么后遗症。

AI 如果没有记忆,就只能做一次性对话;而一次性对话不可能替代老师傅。

这也是为什么我非常看重产品是否开始保存“完整调查上下文”。Azure Monitor issue 保存的不只是最终结论,还包括 supporting data、interactive conversation 和 reasoning。Datadog 也已经把 Agent Trace 作为一等视图,让调查过程中每一步证据评估和判断路径都可以回看。这里面的价值不只是透明度,更是知识沉淀的起点。

未来真正有竞争力的产品,不会只卖一个大模型入口,而会逐渐形成自己的运行时记忆层:把事故、变更、依赖、负责人、处置动作、结果反馈和经验修正连成图谱。到了那一步,老师傅最核心的护城河之一,也就是“组织记忆垄断”,才会被真正瓦解。

哪些东西会被替代,哪些东西短期不会

如果把上面五类形态放在一起看,一个更准确的判断是:

AI 会优先替代那些高频、可证据化、可流程化、可审计的运维经验;不会优先替代那些高风险、强博弈、强业务权衡的最终责任。

短期内最容易被替代的,是:

  • 一线告警分诊
  • 常见故障的初步定位
  • 值班协同和信息同步
  • 标准化 runbook 执行
  • 基于历史案例的复盘整理

短期内最难被替代的,是:

  • 高风险生产变更的最终拍板
  • 跨团队利益冲突下的优先级裁决
  • 新型复杂事故的非标准化推理
  • 技术债、组织债和业务目标之间的取舍

所以,AI 时代真正会消失的,不是“运维”这个职能,而是“靠个人经验充当系统补丁”的工作方式。

最后的判断:谁会赢

我对这个方向的最终判断很简单。

未来能替代运维“老司机”的,不会是单一的聊天入口,而会是一个新的运维产品栈:

  • 上层是调查型 Agent,负责找原因
  • 中层是协同型控制台,负责拉齐人和流程
  • 下层是自动化与护栏系统,负责安全执行动作
  • 底层是平台工程能力和组织记忆系统,负责持续减少对个人经验的依赖

谁能把“证据、推理、动作、审计、记忆”这五件事做成闭环,谁就更接近替代老师傅。
谁只是把大模型包在 dashboard 外面,谁就只能做一个看起来很聪明的新入口,而不是新的运维基础设施。

这也是我对标题问题的回答:AI 时代,真正会替代运维“老司机”的,不是某个单点 AI 功能,而是一整套把隐性经验显性化、把个人判断制度化、把人肉协同系统化的产品形态。

参考信号源

  1. Microsoft Learn, Azure Copilot observability agent (preview)
    https://learn.microsoft.com/en-us/azure/azure-monitor/aiops/observability-agent-overview
  2. Microsoft Learn, Observability capabilities in Agents (preview) in Azure Copilot
    https://learn.microsoft.com/en-us/azure/copilot/observability-agent
  3. Datadog Docs, Bits AI SRE: Investigate Issues
    https://docs.datadoghq.com/bits_ai/bits_ai_sre/investigate_issues/
  4. Datadog Docs, Bits AI SRE: Take Action
    https://docs.datadoghq.com/bits_ai/bits_ai_sre/take_action/
  5. PagerDuty Blog, Spring 25 Release: Reimagining Operations in the Age of AI and Automation
    https://www.pagerduty.com/blog/product/product-launch-enhancements-to-pagerduty-operations-cloud-2025-h1/
  6. PagerDuty Support, Automation on Alerts is now Generally Available for PagerDuty AIOps customers
    https://support.pagerduty.com/main/changelog/automation-on-alerts-is-now-generally-available-for-pagerduty-aiops-customers
  7. PagerDuty, Operations Cloud
    https://www.pagerduty.com/platform/operations-cloud/
  8. Dynatrace, Dynatrace Intelligence Redefines Observability with Trusted Agentic Automation
    https://www.dynatrace.com/news/press-release/dynatrace-intelligence-redefines-observability/

本文由 mdnice 多平台发布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夜莺开源监控

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值