使用知识目录跟踪数据沿袭

本页介绍了如何使用 Knowledge Catalog 跟踪 Looker (Google Cloud Core) 实例的数据沿袭。

数据沿袭是指跟踪数据在系统中的流动方式的过程。通过将 Looker (Google Cloud Core)与知识目录集成,您可以直观呈现数据的端到端历程,从 BigQuery 中的数据源开始,通过 Looker 语义层(LookML 视图和探索)到信息中心和 Look 中的下游使用。

这种可见性有助于数据工程师和管理员执行影响分析。例如,在删除 BigQuery 表中的列之前,您可以查看谱系图,准确了解哪些 Looker 信息中心会因这一更改而无法正常运行。

准备工作

如需将数据沿袭功能与 Looker (Google Cloud core) 搭配使用,您必须满足以下前提条件:

  1. Looker (Google Cloud Core):所有版本类型的 Looker (Google Cloud Core) 实例都支持数据沿袭。Looker(原始)实例不与 Knowledge Catalog 集成。
  2. 所需权限:如需查看沿袭图,您需要以下 IAM 角色:
    • 托管 Looker (Google Cloud Core) 实例的项目中的 Looker 架构查看器 (roles/looker.schemaViewer)
    • Dataplex Viewer (roles/dataplex.viewer) 或同等权限,以便查看 Knowledge Catalog 资产
    • Data Lineage Viewer (roles/datalineage.viewer):用于读取沿袭数据

启用数据沿袭

如需启用数据沿袭,请完成以下各个步骤:

  1. 为 Looker (Google Cloud Core) 启用 Knowledge Catalog 集成:默认情况下, Google Cloud 控制台中会启用 Looker (Google Cloud Core) 实例与 Knowledge Catalog 之间的集成。如果该集成已被停用,您必须重新启用它。如需相关说明,请参阅启用集成
  2. 在 Looker 中启用 Knowledge Catalog 沿袭预览版功能:默认情况下,Looker (Google Cloud Core) 实例的管理面板中的预览版功能页面上会停用 Knowledge Catalog 沿袭预览版功能
  3. 启用 Data Lineage API:您必须在托管 Looker (Google Cloud Core) 实例和 BigQuery 数据的任何 Google Cloud 项目中启用 Data Lineage API (datalineage.googleapis.com)。

    启用 Data Lineage API

  4. 启用服务级沿袭提取Ensure已启用沿袭和 Looker (Google Cloud Core) 服务级集成。服务级沿袭遵循以下默认状态:
    • 为避免日后产生价格影响,对于在相应功能预览版发布之日已启用 Data Lineage API 且至少托管了一个 Looker (Google Cloud Core) 实例的项目,Looker (Google Cloud Core) 服务级谱系提取功能默认处于停用状态。
    • 对于在 Data Lineage API 启用后创建的 Looker (Google Cloud Core) 实例,系统默认会启用服务级沿袭提取功能。

如需查看 Google Cloud 项目的谱系配置,请参阅获取当前配置文档。如果与 Looker (Google Cloud Core) 的集成处于停用状态,该命令将返回类似于以下内容的输出:

    {
    "name": "projects/123456789012/locations/global/config",
    "ingestion": {
      "rules": [
        {
          "integrationSelector": {
            "integration": "LOOKER_CORE"
          },
          "lineageEnablement": {
            "enabled": false
          }
        }
      ]
    },
    "etag": "Wb35wDxTTLd6Z+QAL+Yd4g=="
  }

响应中的项目 ID 将反映您请求中的 ID。etag 字段是由服务器生成的校验和,基于配置的当前值。

查看数据沿袭

启用集成并完成初始同步(可能需要长达 24 小时)后,您可以在 Knowledge Catalog 控制台中查看沿袭。

  1. 在 Google Cloud 控制台中,前往 Knowledge Catalog 页面。

    前往 Knowledge Catalog

  2. 点击左侧导航窗格中的搜索
  3. 搜索 BigQuery 表或 Looker (Google Cloud Core) 资产(例如信息中心或探索)。
    • 您可以使用过滤条件面板按系统 > Looker 进行过滤。
  4. 点击相应资产的名称,打开其详情页面。
  5. 点击沿袭标签页。

沿袭图将相应资源显示为中心节点,上游来源位于左侧,下游使用者位于右侧。

解读沿袭图

沿袭图由节点链接组成:

  • 节点:表示数据资产。支持的 Looker (Google Cloud Core) 资产包括以下内容:
    • Looker 信息中心
    • Looker 信息中心元素(图块)
    • Looker Look
    • LookML 探索
    • LookML 视图
  • 链接:表示数据流。例如,从 BigQuery 表到 LookML 视图的链接表示该视图从相应表中选择数据。

确定资产所有者

如需了解可能受到更改影响的下游资产的拥有者,请按以下步骤操作:

  1. 在谱系图中,点击相应资产(例如 Looker 信息中心)的节点。
  2. 屏幕右侧会打开一个信息面板。
  3. 找到方面部分,然后找到所有者(电子邮件地址)。

过滤沿袭列表

在谱系的列表视图中,您可以按属性名称或值过滤实体。例如,复杂的 LookML 模型可以生成包含许多中间实体的大型谱系图。如需重点关注业务影响,您可以按实体类型进行过滤,具体步骤如下:

  1. 沿袭标签页中,切换到列表视图。
  2. 在工具栏中找到过滤选项。
  3. 实体过滤条件中,输入 Looker 信息中心Looker Look,以过滤掉 LookML 视图Looker 探索等中间类型。

实体列表会更新,仅显示所选的资源类型,从而更轻松地识别面向用户的内容。

限制

在预览版发布期间,Looker (Google Cloud Core) 沿袭集成存在以下限制:

  • 数据源:在预览版中,沿袭仅支持 BigQuery 数据源。
  • 粒度:沿袭数据在对象级(表、视图、探索、信息中心)提供。不支持列级沿袭
  • 延迟时间:谱系数据不是实时数据。同步过程通常需要 4 小时。不过,根据 Looker 元数据导出和谱系数据使用情况的时间,同步过程可能需要长达 8 小时。在 Looker 或 BigQuery 中进行的更改可能需要一段时间才能显示在谱系图中。
  • 复杂的 SQL:使用复杂的自定义 SQL(例如 Liquid 模板、具有复杂联接的派生表)定义的 LookML 可能无法完全解析,从而可能导致节点断开连接。

价格

在预览版发布期间,使用此集成的数据沿袭功能无需支付任何费用。

数据沿袭功能正式推出后,您需要支付相应费用。为避免日后出现价格方面的影响,对于在相应功能预览版发布之日已启用 Data Lineage API 且托管至少一个 Looker(Google Cloud 核心版)实例的项目,Looker (Google Cloud Core)沿袭关系提取功能默认处于停用状态。

如需了解详情,请参阅 Knowledge Catalog 价格页面

后续步骤