關於跨雲端 Lakehouse

透過 Cross-Cloud Lakehouse for Apache Iceberg,您可以直接從 Google Cloud 查詢其他雲端供應商儲存的資料,不必遷移檔案或建立複雜的 ETL 管道。

這項功能是 Lakehouse 的一部分,可讓您使用 BigQuery、獨立的 Apache Spark 環境或 Managed Service for Apache Spark,對分散式資料集執行統一分析及套用 AI。

用途

跨雲端 Lakehouse 支援多個重要用途,可存取多個雲端服務供應商的資料:

  • 減少資料遷移:直接查詢儲存在其他雲端環境中的資料,簡化資料存取和處理作業。
  • 統一分析:無論資料位於何處,您都能使用一致的功能和硬體最佳化技術,對所有資料執行進階分析。
  • 跨雲端 AI 和機器學習可讓您直接將 AI 模型、自主代理程式和機器學習套用至遠端資料,不必遷移資料。

跨雲端 Lakehouse 的運作方式

跨雲端 Lakehouse 查詢會透過下列程序查詢遠端資料:

  1. 中繼資料探索: Google CloudLakehouse 會連線至遠端 Apache Iceberg REST 目錄,例如 Databricks Unity 或 AWS Glue。湖倉會探索資料,不會複製任何檔案。視遠端目錄提供者而定,Lakehouse 會透過 Secret Manager 或 OpenID Connect 權杖聯盟 (以 Google 做為身分識別提供者) 安全地進行驗證。
  2. 安全傳輸:選擇透過私有互連網路 (例如專屬 CCI 或 Partner Interconnect) 傳輸流量,可大幅降低資料移轉費用,且延遲時間非常穩定,相較於公用網際網路更具優勢。
  3. 最佳化執行:由於查詢會從遠端雲端讀取資料,Lakehouse 會在專用儲存空間中暫時快取這些資料區段。 Google Cloud 後續查詢會使用本機快取,避免產生大量跨雲端輸出費用。

支援的目錄

跨雲端 Lakehouse 支援從下列遠端目錄供應商查詢資料:

  • Databricks Unity 目錄:支援 Amazon Web Services (AWS) 和Google Cloud。
  • AWS Glue:Amazon Web Services (AWS) 支援這項服務。

核心概念

本節說明使用跨雲端 Lakehouse 時不可或缺的主要元件。

遠端 Apache Iceberg REST 目錄

這是中繼資料層。您可以連線至遠端 Apache Iceberg REST 目錄。Lakehouse 會探索資料,不會複製任何檔案。透過 OIDC 權杖聯盟或 OAuth 憑證,Lakehouse 會安全地進行驗證,不需要長期有效的存取金鑰。

傳輸層

這是傳輸層。您可以設定 Lakehouse,透過公用網際網路或專屬私人互連,查詢儲存在遠端雲端供應商的資料。

選取符合架構和安全性需求的傳輸方式:

客戶擁有的帳戶 (CCI)

您可以設定 BigQuery,透過私人專屬網路連線,使用Cross-Cloud InterconnectPartner Interconnect,查詢儲存在 Amazon Web Services (AWS) Amazon S3 bucket 中的資料。

使用私人互連網路可享有下列優點:

  • 提升安全性:資料會在 Google Cloud 和 AWS 之間的私人網路連線中傳輸,避開公開網際網路。
  • 降低費用:相較於網際網路輸出,從 AWS 輸出資料的費用可能較低,尤其是搭配私人互連容量時。
  • 穩定效能:與公開網際網路相比,網路延遲時間和頻寬更可預測。

架構總覽

如要啟用私人查詢,請透過私人互連,設定從 BigQuery 到 AWS Amazon S3 儲存空間的路徑。虛擬私有雲 (VPC) 的重要元件是內部負載平衡器 (ILB)。ILB 會將 BigQuery 的要求分配至 AWS VPC 內 Amazon S3 的私人端點,這些端點是使用 AWS PrivateLink 佈建。 Google Cloud

使用具有多個彈性網路介面 (ENI) 的 ILB 做為後端,對於負載平衡、擴充性和高可用性至關重要。無論您使用專屬 CCI 或 Partner Interconnect,都適用這項做法。

私人查詢工作流程如下:

  1. BigQuery 會使用透過 Service Directory 服務設定的連線。
  2. Service Directory 會將服務名稱解析為 Google Cloud ILB 的內部 IP 位址。
  3. ILB 會接收來自 BigQuery 的要求,並將要求分配至已設定的後端。
  4. ILB 後端是混合式連線網路端點群組 (NEG),每個群組都指向 AWS VPC 中 ENI 的私人 IP 位址。
  5. 流量會從 ILB 經由 NEG,透過私有互連,傳輸至 AWS ENI。
  6. AWS ENI 是 Amazon S3 VPC 介面端點 (AWS PrivateLink) 的一部分,可提供 Amazon S3 服務的私有存取權。

公開網際網路 (無 CCI)

如未設定私有互連,查詢遠端目錄的預設路徑會經過公開網際網路。

透過公用網際網路查詢資料時,請考量下列影響:

  • 標準型加密:資料存取要求和資料傳輸作業會透過公用網際網路,使用標準 TLS 通訊協定進行傳輸加密。
  • 輸出費用:資料移轉會產生標準網際網路輸出費用,由遠端雲端供應商 (例如 AWS) 收取,這類費用通常高於私有互連輸出費率。
  • 延遲時間不一:網路效能、頻寬和延遲時間取決於公用網際網路的路由和壅塞情況,因此與專屬私人互連網路相比,查詢執行時間較難預測。
  • 簡化設定:不需要在 Google Cloud 或遠端雲端服務供應商中,設定額外的網路基礎架構、虛擬私有雲對等互連或服務目錄。

架構總覽

透過公用網際網路查詢資料時,Lakehouse 會直接連線至遠端目錄和物件儲存端點,不需要私有 Google Cloud 或遠端雲端網路基礎架構。

公開網際網路查詢工作流程如下:

  1. BigQuery 會針對您在 Lakehouse 目錄中定義的聯合資料表啟動查詢。
  2. Lakehouse 會使用儲存在 Secret Manager 中的憑證或 OIDC 權杖聯盟,安全地向遠端 Apache Iceberg 目錄進行驗證。
  3. Lakehouse 會透過公開網際網路擷取資料表的中繼資料和資訊清單檔案,找出相關的基礎資料檔案 (例如 AWS Amazon S3 中的檔案)。
  4. 基礎物件的資料存取要求會透過公用網際網路,使用標準 TLS 加密直接從Google Cloud 傳送。
  5. 遠端儲存服務會使用 Lakehouse 提供的臨時範圍憑證驗證要求,並透過公用網際網路將要求的資料區塊傳回 Google Cloud。

後續步驟