透過 Application Monitoring 查看 AI 資源

本文說明如何查看 App Hub 註冊應用程式、服務和工作負載所用 AI 資源的遙測資料。

如要產生錯誤率、延遲時間和詞元用量等指標,應用程式監控會查詢追蹤資料,找出符合 OpenTelemetry 生成式 AI 語意慣例的應用程式專屬標籤和事件。這些指標會量化 AI 資源的健康狀態、效能和成本,並以應用程式的匯總資料,或個別服務和工作負載的精細資料形式提供。

下圖顯示已註冊應用程式的 AI 資源資訊主頁:

顯示 AI 資源資訊的資訊主頁。

事前準備

如要執行本文中的程序,您需要 Google Cloud 具備可供分析的有效 AI 資源專案。此外,您也必須將 AI 資源與在 App Hub 註冊的應用程式、服務和工作負載建立關聯。應用程式監控功能需要遙測和追蹤記錄資料,才能產生有意義的結果。

設定角色、API,並設定應用程式監控功能

  1. 完成「調查應用程式、服務和工作負載:事前準備」一文中的步驟。
  2. 啟用 Observability、Cloud Trace 和 Telemetry API。

    啟用 API 時所需的角色

    如要啟用 API,您需要服務使用情形管理員 IAM 角色 (roles/serviceusage.serviceUsageAdmin),其中包含 serviceusage.services.enable 權限。瞭解如何授予角色

    啟用 API

  3. 如要取得查看 AI 資源用量資訊所需的權限,請要求管理員授予您下列 IAM 角色:

    • 您專案的「Observability Viewer」(可觀測性檢視者) (roles/observability.viewer)
    • 在要查詢的觀測檢視畫面中,按一下「觀測檢視畫面存取者」 (roles/observability.viewaccessor)。您可以將這項授權限制在特定檢視區塊。

    如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。

    您或許也能透過自訂角色或其他預先定義的角色,取得必要權限。

開發及註冊應用程式、服務和工作負載

如要顯示應用程式、服務和工作負載使用的 AI 資源資料,追蹤資料必須包含符合 OpenTelemetry 生成式 AI 語意慣例的應用程式專屬標籤和事件。如要取得這些標籤,請完成下列步驟:

  1. 在 App Hub 註冊應用程式及其服務和工作負載。
  2. 使用 Agent Development Kit (ADK) 框架,或透過 OpenTelemetry 檢測應用程式,並將追蹤記錄資料傳送至 Telemetry API。如需檢測範例,請參閱「使用 OpenTelemetry 檢測 ADK 應用程式」和「以收集器為基礎的檢測範例總覽」。

查看應用程式的 AI 資源

如要查看與應用程式相關聯的 AI 資源,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「Application monitoring」頁面:

    前往「應用程式監控」

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 在 Google Cloud 控制台的工具列中,選取 App Hub 主專案或管理專案。

  3. 選取「應用程式」分頁標籤,然後從清單中選取應用程式。

  4. 選取「資訊主頁」分頁標籤。

  5. 在資訊主頁的「目錄」中,選取「AI 資源」

    當您至少有一個與應用程式相關聯的 AI 代理程式處於啟用狀態時,系統就會建立「AI 資源」項目。如果沒有任何代理程式,或所有代理程式都處於非使用中狀態,系統就不會列出這個選項。

資訊主頁會前往「AI 資源」部分,顯示下列資訊:

  • 每秒查詢次數和權杖數量。
  • 平均錯誤率、延遲時間和工具呼叫錯誤率。
  • 詞元用量。
  • 代理的錯誤率和延遲時間。

查看服務或工作負載的 AI 資源

如要查看與服務或工作負載相關聯的 AI 資源,請按照下列步驟操作:

  1. 開啟服務或工作負載的資訊主頁:

    1. 前往 Google Cloud 控制台的「Application monitoring」頁面:

      前往「應用程式監控」

      如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

    2. 選取「服務和工作負載」分頁標籤,然後選取服務或工作負載。

    系統會開啟服務或工作負載的資訊主頁。「目錄」會列出資訊主頁中的各個部分,這些部分可能視 AI 資源類型而定。

  2. 如要前往資訊主頁中顯示 AI 資源資訊的部分,請使用資訊主頁的目錄

    • 服務專員:服務專員可使用。這個部分會顯示工作階段、代理程式叫用和權杖用量等資訊。

    • 工具:代理可使用。這個部分會顯示工具呼叫的相關資訊,包括錯誤率、呼叫次數和 P95 延遲時間。

    • 模型:適用於部分代理。這個部分會顯示代理程式進行的模型呼叫次數、錯誤率和權杖用量等資訊。

探索遙測

系統會根據對追蹤資料執行的 SQL 查詢,決定 AI 資源圖表上顯示的資料。這些查詢會依應用程式專屬標籤和符合 OpenTelemetry GenAI 語意慣例的生成式 AI 事件,篩選追蹤資料。

如要查看圖表的查詢,請在圖表的工具列中選取 更多圖表選項,然後選取 在可觀測性 Analytics 中探索

「Observability Analytics」隨即開啟,並顯示產生圖表資料的 SQL 查詢。您可以採取下列做法︰

  • 檢查查詢,然後返回 Application Monitoring。
  • 執行查詢。
  • 修改查詢,然後執行修改後的查詢。
  • 建立圖表,顯示查詢結果。
  • 將顯示查詢結果的圖表儲存至自訂資訊主頁。

詳情請參閱下列文件: