为 Databricks Unity Catalog 设置跨云 Lakehouse

本文档介绍了如何设置跨云湖仓一体,以便直接在Google Cloud中查询 Databricks Unity Catalog 目录中的数据。此功能通过将外部数据源与现有Google Cloud 环境集成,统一了数据分析。

之后,您可以使用 Lakehouse for Apache Iceberg 来管理对联邦数据的访问权限。

准备工作

  1. 查看湖仓一体架构概览,了解湖仓一体架构如何管理数据访问权限。
  2. 请参阅跨云数据湖仓简介,了解其运作方式。
  3. 查看支持的目录,验证外部位置要求和支持的配置。
  4. 了解如何使用区域级 Secret Manager Secret。这是使用 Databricks Unity Catalog 设置跨云湖仓一体数据架构的必要条件。
  5. 在您的远程目录提供商中生成一个对目标目录具有读取权限的 OAuth 服务正文(客户端 ID 和客户端密钥)。此流程不在本文档的讨论范围内。
  6. 可选:如果您计划通过 Google Cloud VPC 与远程云提供商的 VPC(例如 AWS)之间的专用互连来路由查询,请确保您在远程提供商处拥有有效账号,预配 Cross-Cloud InterconnectPartner Interconnect,与 Cloud Router 建立 BGP 会话,并验证您在两个云环境中都拥有所需的 IAM 权限。
  7. 登录您的 Google Cloud 账号。如果您是 Google Cloud新手,请 创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the BigLake, Secret Manager APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  10. Verify that billing is enabled for your Google Cloud project.

  11. Enable the BigLake, Secret Manager APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

所需的角色

如需获得设置跨云 Lakehouse 所需的权限,请让管理员向您授予项目的以下 IAM 角色:

  • 管理 Lakehouse 目录: BigLake Admin (roles/biglake.admin)
  • 管理 Secret:Secret Manager Admin (roles/secretmanager.admin)
  • 通过专用互联路由流量:Compute Network Admin (roles/compute.networkAdmin)、Service Directory Viewer (roles/servicedirectory.viewer) 和 Service Directory PSC Authorized Service (roles/servicedirectory.pscAuthorizedService)

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

支持的目录详情

本指南介绍了如何使用 Amazon Web Services (AWS) 或 Google Cloud上的 Databricks Unity Catalog 目录设置跨云 Lakehouse。如需详细了解外部位置要求和支持的配置,请参阅支持的目录

限制和注意事项

本部分列出了使用跨云 Lakehouse 的限制和注意事项。

  • 支持的云提供商:以下远程云提供商支持使用专用互连来连接跨云 Lakehouse:Amazon Web Services (AWS)。您可以使用 Cross-Cloud Interconnect合作伙伴互连
  • 仅支持使用 AWS 上的外部位置 Google Cloud上的外部位置的 Databricks Unity Catalog 目录。使用 AWS 上的默认存储 Google Cloud上的默认存储的 Unity Catalog 目录不受支持
  • 您必须在 Unity Catalog 使用的元存储区上启用外部数据访问权限,此功能默认处于停用状态。
  • 网络路由:如果未配置专用互连(例如客户自有 CCI 或合作伙伴互连),查询将通过公共互联网进行路由。这可能会导致远程云提供商的出站费用更高,并且性能的可预测性更低。
  • 数据新鲜度:联合目录的 --refresh-interval 标志用于确定元数据的同步频率。间隔时间越短,数据越新,但可能会产生额外的远程目录提供商 API 费用。
  • Iceberg 指标报告Iceberg 指标报告不适用于联合目录。访问联合目录时,请在 Iceberg 客户端中将 rest-metrics-reporting-enabled 属性设置为 false

常规工作流程

如需设置和使用跨云 Lakehouse,请按照以下常规步骤操作:

  • 设置跨云互连(可选):在 Google Cloud VPC 与远程云提供商之间配置专用连接。
  • 设置联合:在 Secret Manager 中使用远程目录凭据创建 Secret。然后,在 Lakehouse 中创建联合目录,并授予该目录对相应 Secret 的访问权限。
  • 验证连接:验证 Lakehouse 是否可以成功连接到您的远程目录。
  • 查询数据:使用 BigQuery 或 Managed Service for Apache Spark 针对联合数据运行查询。如需了解详情,请参阅使用跨云 Lakehouse
  • 配置权限:使用 Identity and Access Management (IAM) 来管理哪些人可以查看和查询联合数据。

设置跨云互连(可选)

默认情况下,对远程目录的查询通过公共互联网传输。为了提高安全性、合规性,提供可预测的性能并降低数据传输费用,请使用专用互联。这样可以在您的 Google CloudVirtual Private Cloud (VPC) 与远程云提供商的网络(例如 AWS)之间建立专用网络连接。

您可以在 Google Cloud VPC 与远程云提供商的 VPC(例如 AWS)之间预配和配置以下任一专用互连选项:

在 Google Cloud 中的 Cloud Router 路由器与远程云提供商的 VPC 之间建立 BGP 会话,以确保路由交换。

如需启用私密查询,您必须通过私密互联配置从 Lakehouse 到远程存储桶(例如 AWS Amazon S3 存储桶)的路径。您可以按照以下两种架构流程来配置此路由:

  • 内部区域级代理网络负载平衡器路由:此流程使用Google Cloud 内部区域级代理网络负载平衡器在指向多个 AWS 弹性网络接口 (ENI) 的混合连接网络端点群组 (NEG) 之间分配请求。此流程对于负载均衡、可伸缩性和高可用性至关重要。对于合作伙伴互连,此流程是必需的;对于跨云互连,建议使用此流程来实现负载均衡、可伸缩性和高可用性。
  • 直接端点路由:此流程将 Service Directory 直接连接到单个 AWS 接口 VPC 端点 IP 地址。此流程仅适用于跨云互连,不支持合作伙伴互连。

选择符合您的架构要求的配置流程:

内部区域级代理网络负载平衡器

如需配置内部区域代理网络负载平衡器,以在多个 AWS ENI 之间分配请求,从而实现高可用性和负载均衡,请按以下步骤操作:

配置 AWS 网络

首先,创建 Amazon S3 VPC 接口端点 (AWS PrivateLink):

  1. 在 AWS VPC 控制台中,为 Amazon S3 创建接口端点。
  2. 对于服务名称,请指定 com.amazonaws.<var>AWS_REGION</var>.s3
  3. 选择通过 Direct Connect 连接到 Google Cloud VPC 的 VPC 和子网。
  4. 将安全组附加到端点以控制入站访问。
  5. 这会在每个所选子网中预置弹性网络接口 (ENI)。请记下这些 ENI 的私有 IP 地址。

接下来,配置安全组:

  • 确保附加到 Amazon S3 端点 ENI 的安全组允许从 Google Cloud VPC 的相关 IP 范围在端口 443 上入站 TCP 流量。

配置 Google Cloud 网络

按照说明为混合端点设置内部区域级代理网络负载平衡器

在按照说明操作时,请务必做到以下几点:

  • 创建混合连接 NEG (NON_GCP_PRIVATE_IP_PORT),并添加您之前创建的 AWS ENI 的私有 IP 地址。
  • 为 NEG、健康检查和转发规则使用 TCP 端口 443
  • 在与联邦目录相同的 Google Cloud 区域中设置负载均衡器。

为负载均衡器创建转发规则后,请记下为其分配的内部 IP 地址。这是您的 ILB_IP_ADDRESS

配置 Service Directory

在 Service Directory 中注册 ILB 的 IP 地址,以便 Lakehouse 可以发现它。

  1. 为远程云创建命名空间:

    gcloud service-directory namespaces create NAMESPACE \
        --project=PROJECT_ID \
        --location=REGION

    替换以下内容:

    • NAMESPACE:命名空间的唯一标识符。
    • PROJECT_ID:您的 Google Cloud 项目 ID。
    • REGION: Google Cloud 区域。例如 us-east4。此值必须与联合目录所在的区域相同。
  2. 在 Service Directory 命名空间中创建服务:

    gcloud service-directory services create SERVICE_NAME \
        --namespace=NAMESPACE \
        --project=PROJECT_ID \
        --location=REGION

    替换以下内容:

    • SERVICE_NAME:服务的唯一标识符。
  3. 在服务中为 ILB 创建端点:

    gcloud service-directory endpoints create ENDPOINT_NAME \
        --project=PROJECT_ID \
        --namespace=NAMESPACE \
        --service=SERVICE_NAME \
        --location=REGION \
        --network=projects/PROJECT_NUMBER/global/networks/VPC_NETWORK \
        --address=ILB_IP_ADDRESS \
        --port=443

    替换以下内容:

    • ENDPOINT_NAME:端点的唯一标识符。
    • PROJECT_NUMBER:您的 Google Cloud项目编号。请在 --network 标志中使用您的项目编号。
    • ILB_IP_ADDRESS:ILB 转发规则的内部 IP 地址。

直接端点

如需配置 Service Directory 以将流量直接路由到单个 AWS 接口 VPC 端点 IP 地址,请按照以下步骤操作:

  1. 在 AWS VPC 内为 Amazon S3 创建接口 VPC 端点。记下此端点的 IP 地址和端口。
  2. 为远程云创建命名空间:

    gcloud service-directory namespaces create NAMESPACE \
        --project=PROJECT_ID \
        --location=REGION

    替换以下内容:

    • NAMESPACE:命名空间的唯一标识符。
    • PROJECT_ID:您的 Google Cloud 项目 ID。
    • REGION: Google Cloud 区域。例如 us-east4。此值必须与联合目录所在的区域相同。
  3. 在 Service Directory 命名空间中创建服务:

    gcloud service-directory services create SERVICE_NAME \
        --namespace=NAMESPACE \
        --project=PROJECT_ID \
        --location=REGION

    替换以下内容:

    • SERVICE_NAME:服务的唯一标识符。
  4. 在包含 Amazon S3 接口 VPC 端点路由信息的服务中创建端点:

    gcloud service-directory endpoints create ENDPOINT_NAME \
        --service=SERVICE_NAME \
        --namespace=NAMESPACE \
        --project=PROJECT_ID \
        --location=REGION \
        --address=S3_VPCE_IP_ADDRESS \
        --port=S3_VPCE_PORT \
        --network=projects/PROJECT_NUMBER/global/networks/VPC_NETWORK

    替换以下内容:

    • ENDPOINT_NAME:端点的唯一标识符。
    • S3_VPCE_IP_ADDRESS:Amazon S3 接口 VPC 端点的 IP 地址。例如 10.0.1.45
    • S3_VPCE_PORT:Amazon S3 接口 VPC 端点的端口号。例如 443
    • PROJECT_NUMBER:您的 Google Cloud项目编号。请在 --network 标志中使用您的项目编号。
    • VPC_NETWORK:与专用互连关联的 Google Cloud VPC 网络名称。

设置联合

如需查询数据,您必须设置一个连接到远程目录的 Lakehouse 联合目录。

创建区域级密钥

联合需要凭据才能访问远程目录。Lakehouse 使用区域性 Secret Manager Secret 安全地存储和检索这些凭据,以便向远程提供方进行身份验证。

对于 Databricks,您必须在 Databricks 账号中创建服务正文,并生成 OAuth 客户端 ID 和客户端密钥。验证此服务正文是否具有对目标 Unity Catalog 目录的读取权限。然后,将这些凭证格式化为 JSON 载荷,以存储在 Secret Manager 中。

  1. 创建一个名为 credentials.json 且包含您的载荷的 JSON 文件:

    {
      "client_id": "CLIENT_ID",
      "client_secret": "CLIENT_SECRET"
    }

    替换以下内容:

    • CLIENT_ID:Databricks 服务主账号的 OAuth 客户端 ID。
    • CLIENT_SECRET:Databricks 服务主账号的 OAuth 客户端密钥。
  2. 为 Secret Manager 配置区域端点:

    默认情况下,Secret Manager 使用全球端点。不过,跨云 Lakehouse 要求您的 Secret 存储在与 Lakehouse 目录相同的区域中。如需使用 gcloud CLI 与区域级密文互动,您必须替换当前会话或配置文件的默认 API 端点。为避免连接问题,您的 Secret 和目录必须在同一区域中创建。例如 secretmanager.us-east4.rep.googleapis.com

    gcloud config set api_endpoint_overrides/secretmanager https://secretmanager.REGION.rep.googleapis.com/

    替换以下内容:

    • REGION:存储 Secret Manager Secret 的 Google Cloud 区域。例如 us-east4。 为避免连接问题,您的密钥和目录必须在同一区域中创建。例如 secretmanager.us-east4.rep.googleapis.com
  3. 将载荷上传到 Secret Manager:

    gcloud secrets create DATABRICKS_SECRET_NAME \
      --location="REGION" \
      --project="PROJECT_ID" \
      --data-file=credentials.json

    替换以下内容:

    • DATABRICKS_SECRET_NAME:Databricks Secret 的名称。

创建联合目录

使用 gcloud biglake iceberg catalogs create 命令创建联邦目录。

控制台

  1. 在 Google Cloud 控制台中,前往 Lakehouse

    前往 Lakehouse

  2. 点击 创建目录

  3. 点击联合目录

    系统会显示目录配置详细信息。

  4. 对于联合目录来源,选择 Unity (Databricks)

  5. 对于数据位置,选择要在其中创建联邦目录的 Lakehouse 区域。例如 us-east4。 为了尽可能缩短延迟时间(即使是通过公共互联网),请在选择区域时执行以下操作:

    • 如果您的 Unity Catalog 目录位于 AWS 上,请选择Google Cloud 距离您的 AWS 区域最近的区域。
    • 如果您的 Unity Catalog 目录处于 Google Cloud状态,请选择完全相同的区域。
  6. 点击继续

    系统会显示连接详细信息

  7. 远程目录详细信息部分的 Unity 实例名称字段中,输入目标 Databricks 实例名称。例如:abcd.cloud.databricks.com

  8. Unity Catalog 名称字段中,输入要联合的目标 Databricks Unity Catalog 目录的名称。

  9. 身份验证和网络部分的密文字段中,输入 Databricks 密文的名称。请使用以下格式 projects/PROJECT_ID/locations/REGION/secrets/DATABRICKS_SECRET_NAME

  10. 可选:在服务目录名称字段中,输入您的 Service Directory 服务的路径。例如:projects/PROJECT_ID/locations/REGION/namespaces/NAMESPACE/services/SERVICE_NAME。只有在配置跨云互连时才需要执行此步骤。

  11. 点击创建

gcloud CLI

公共互联网(无 CCI)

如果您不配置 CCI,连接将通过公共互联网安全传输。

gcloud biglake iceberg catalogs create FEDERATED_CATALOG_NAME \
    --project="PROJECT_ID" \
    --primary-location="REGION" \
    --catalog-type="federated" \
    --federated-catalog-type="unity" \
    --secret-name="projects/PROJECT_ID/locations/REGION/secrets/DATABRICKS_SECRET_NAME" \
    --unity-instance-name="UNITY_INSTANCE_NAME" \
    --unity-catalog-name="UNITY_CATALOG_NAME" \
    --refresh-interval="REFRESH_INTERVAL" \
    --namespace-filters="NAMESPACE_FILTERS"

替换以下内容:

  • PROJECT_ID:您的 Google Cloud 项目 ID。
  • REGION:创建联邦目录的 Lakehouse 区域。例如 us-east4。为最大限度地缩短延迟时间,请在选择区域时执行以下操作:
    • 如果您的 Unity Catalog 目录位于 AWS 上,请选择Google Cloud 距离您的 AWS 区域最近的区域。
    • 如果您的 Unity Catalog 目录位于 Google Cloud,请选择完全相同的区域。
  • DATABRICKS_SECRET_NAME:Databricks Secret 的名称。
  • UNITY_INSTANCE_NAME:目标 Databricks 实例名称。例如:abcd.cloud.databricks.com
  • UNITY_CATALOG_NAME:要联合的目标 Databricks Unity Catalog 目录的名称。
  • REFRESH_INTERVAL:指定更新目录信息的频率。将此值设置为时长,例如 330s5m30s。间隔时间越短,更新数据的频率越高,但 API 调用费用可能会更高。间隔时间越长,费用可能会更低,但查询的数据可能无法反映您的最新数据集。如果省略此值或将此值设置为 0s,则系统会停用更新
  • NAMESPACE_FILTERS:可选:以英文逗号分隔的要进行联邦的命名空间列表。例如 ns1,ns2如果省略,则将包含所有命名空间

客户自有 (CCI)

如果您配置了专用互连(例如专用 CCI 或合作伙伴互连),请提供 Service Directory 服务参考,以便 Lakehouse 私密地路由流量。

gcloud biglake iceberg catalogs create FEDERATED_CATALOG_NAME \
    --project="PROJECT_ID" \
    --primary-location="REGION" \
    --catalog-type="federated" \
    --federated-catalog-type="unity" \
    --secret-name="projects/PROJECT_ID/locations/REGION/secrets/DATABRICKS_SECRET_NAME" \
    --unity-instance-name="UNITY_INSTANCE_NAME" \
    --unity-catalog-name="UNITY_CATALOG_NAME" \
    --refresh-interval="REFRESH_INTERVAL" \
    --namespace-filters="NAMESPACE_FILTERS" \
    --service-directory-name="projects/PROJECT_ID/locations/REGION/namespaces/NAMESPACE/services/SERVICE_NAME"

替换以下内容:

  • PROJECT_ID:您的 Google Cloud 项目 ID。
  • PROJECT_NUMBER:您的 Google Cloud 项目编号。
  • REGION:创建联邦目录的 Lakehouse 区域。例如 us-east4。为最大限度地缩短延迟时间,请在选择区域时执行以下操作:
    • 如果您的 Unity Catalog 目录位于 AWS 上,请选择Google Cloud 距离您的 AWS 区域最近的区域。
    • 如果您的 Unity Catalog 目录位于 Google Cloud,请选择完全相同的区域。注意:此区域必须与 Service Directory 命名空间和区域级 Secret 相同。
  • DATABRICKS_SECRET_NAME:Databricks Secret 的名称。
  • UNITY_INSTANCE_NAME:目标 Databricks 实例名称。例如:abcd.cloud.databricks.com
  • UNITY_CATALOG_NAME:要联合的目标 Databricks Unity Catalog 目录的名称。
  • REFRESH_INTERVAL:指定更新目录信息的频率。将此值设置为时长,例如 330s5m30s。间隔时间越短,更新数据的频率越高,但 API 调用费用可能会更高。间隔时间越长,费用可能会更低,但查询的数据可能无法反映您的最新数据集。如果省略此值或将此值设置为 0s,则系统会停用更新
  • NAMESPACE_FILTERS:可选:以英文逗号分隔的要进行联邦的命名空间列表。例如 ns1,ns2如果省略,则将包含所有命名空间
  • NAMESPACE:您在设置专用互连时创建的 Service Directory 命名空间。
  • SERVICE_NAME:您在设置专用互连时创建的 Service Directory 服务名称。

向联合目录授予对密文的访问权限

创建目录时,Lakehouse 会为其预配一个唯一的服务账号(在资源说明中以 biglake-service-account 形式返回)。

您必须向此服务账号授予访问本教程前面创建的 Secret 的权限。请注意,传播 IAM 政策可能需要几分钟时间。

向目录的服务账号授予访问 Secret 的权限。

# Required to use regional secrets
gcloud config set api_endpoint_overrides/secretmanager https://secretmanager.REGION.rep.googleapis.com/
gcloud secrets add-iam-policy-binding DATABRICKS_SECRET_NAME \
  --project="PROJECT_ID" \
  --location="REGION" \
  --member="serviceAccount:$(gcloud biglake iceberg catalogs describe FEDERATED_CATALOG_NAME \
      --project="PROJECT_ID" \
      --location="REGION" \
      --format='value(biglake-service-account)')" \
  --role="roles/secretmanager.secretAccessor"

验证连接

如需验证联合目录服务账号是否具有对相应 Secret 的访问权限,请运行以下命令:

# Required to use regional secrets
gcloud config set api_endpoint_overrides/secretmanager https://secretmanager.REGION.rep.googleapis.com/
gcloud secrets get-iam-policy DATABRICKS_SECRET_NAME \
     --project="PROJECT_ID" \
     --location="REGION"

在输出中,验证 biglake-service-account 服务账号是否已分配 roles/secretmanager.secretAccessor 角色。

接下来,验证目录后台刷新周期是否已成功完成,以及命名空间是否正在同步。

  1. 验证刷新状态是否显示成功:

    gcloud biglake iceberg catalogs describe FEDERATED_CATALOG_NAME \
      --project="PROJECT_ID" \
      --location="REGION"
  2. 确认远程数据库显示为已同步的命名空间:

    gcloud biglake iceberg namespaces list \
      --catalog="FEDERATED_CATALOG_NAME" \
      --project="PROJECT_ID" \
      --location="REGION"

后续步骤