透過 Cross-Cloud Lakehouse for Apache Iceberg,您可以直接從 Google Cloud 查詢其他雲端供應商儲存的資料,不必遷移檔案或建立複雜的 ETL 管道。
這項功能是 Lakehouse 的一部分,可讓您使用 BigQuery、獨立的 Apache Spark 環境或 Managed Service for Apache Spark,對分散式資料集執行統一分析及套用 AI。
用途
跨雲端 Lakehouse 支援多個重要用途,可存取多個雲端服務供應商的資料:
- 減少資料遷移:直接查詢儲存在其他雲端環境中的資料,簡化資料存取和處理作業。
- 統一分析:無論資料位於何處,您都能使用一致的功能和硬體最佳化技術,對所有資料執行進階分析。
- 跨雲端 AI 和機器學習可讓您直接將 AI 模型、自主代理程式和機器學習套用至遠端資料,不必遷移資料。
跨雲端 Lakehouse 的運作方式
跨雲端 Lakehouse 查詢會透過下列程序查詢遠端資料:
- 中繼資料探索: Google CloudLakehouse 會連線至遠端 Apache Iceberg REST 目錄,例如 Databricks Unity 或 AWS Glue。湖倉會探索資料,不會複製任何檔案。視遠端目錄提供者而定,Lakehouse 會透過 Secret Manager 或 OpenID Connect 權杖聯盟 (以 Google 做為身分識別提供者) 安全地進行驗證。
- 安全傳輸:選擇透過私有互連網路 (例如專屬 CCI 或 Partner Interconnect) 傳輸流量,可大幅降低資料移轉費用,且延遲時間非常穩定,相較於公用網際網路更具優勢。
- 最佳化執行:由於查詢會從遠端雲端讀取資料,Lakehouse 會在專用儲存空間中暫時快取這些資料區段。 Google Cloud 後續查詢會使用本機快取,避免產生大量跨雲端輸出費用。
支援的目錄
跨雲端 Lakehouse 支援從下列遠端目錄供應商查詢資料:
- Databricks Unity 目錄:支援 Amazon Web Services (AWS) 和Google Cloud。
- AWS Glue:Amazon Web Services (AWS) 支援這項服務。
核心概念
本節說明使用跨雲端 Lakehouse 時不可或缺的主要元件。
遠端 Apache Iceberg REST 目錄
這是中繼資料層。您可以連線至遠端 Apache Iceberg REST 目錄。Lakehouse 會探索資料,不會複製任何檔案。透過 OIDC 權杖聯盟或 OAuth 憑證,Lakehouse 會安全地進行驗證,不需要長期有效的存取金鑰。
傳輸層
這是傳輸層。您可以設定 Lakehouse,透過公用網際網路或專屬私人互連,查詢儲存在遠端雲端供應商的資料。
選取符合架構和安全性需求的傳輸方式:
客戶擁有的帳戶 (CCI)
您可以設定 BigQuery,透過私人專屬網路連線,使用Cross-Cloud Interconnect或Partner Interconnect,查詢儲存在 Amazon Web Services (AWS) Amazon S3 bucket 中的資料。
使用私人互連網路可享有下列優點:
- 提升安全性:資料會在 Google Cloud 和 AWS 之間的私人網路連線中傳輸,避開公開網際網路。
- 降低費用:相較於網際網路輸出,從 AWS 輸出資料的費用可能較低,尤其是搭配私人互連容量時。
- 穩定效能:與公開網際網路相比,網路延遲時間和頻寬更可預測。
架構總覽
如要啟用私人查詢,請透過私人互連,設定從 BigQuery 到 AWS Amazon S3 儲存空間的路徑。虛擬私有雲 (VPC) 的重要元件是內部負載平衡器 (ILB)。ILB 會將 BigQuery 的要求分配至 AWS VPC 內 Amazon S3 的私人端點,這些端點是使用 AWS PrivateLink 佈建。 Google Cloud
使用具有多個彈性網路介面 (ENI) 的 ILB 做為後端,對於負載平衡、擴充性和高可用性至關重要。無論您使用專屬 CCI 或 Partner Interconnect,都適用這項做法。
私人查詢工作流程如下:
- BigQuery 會使用透過 Service Directory 服務設定的連線。
- Service Directory 會將服務名稱解析為 Google Cloud ILB 的內部 IP 位址。
- ILB 會接收來自 BigQuery 的要求,並將要求分配至已設定的後端。
- ILB 後端是混合式連線網路端點群組 (NEG),每個群組都指向 AWS VPC 中 ENI 的私人 IP 位址。
- 流量會從 ILB 經由 NEG,透過私有互連,傳輸至 AWS ENI。
- AWS ENI 是 Amazon S3 VPC 介面端點 (AWS PrivateLink) 的一部分,可提供 Amazon S3 服務的私有存取權。
公開網際網路 (無 CCI)
如未設定私有互連,查詢遠端目錄的預設路徑會經過公開網際網路。
透過公用網際網路查詢資料時,請考量下列影響:
- 標準型加密:資料存取要求和資料傳輸作業會透過公用網際網路,使用標準 TLS 通訊協定進行傳輸加密。
- 輸出費用:資料移轉會產生標準網際網路輸出費用,由遠端雲端供應商 (例如 AWS) 收取,這類費用通常高於私有互連輸出費率。
- 延遲時間不一:網路效能、頻寬和延遲時間取決於公用網際網路的路由和壅塞情況,因此與專屬私人互連網路相比,查詢執行時間較難預測。
- 簡化設定:不需要在 Google Cloud 或遠端雲端服務供應商中,設定額外的網路基礎架構、虛擬私有雲對等互連或服務目錄。
架構總覽
透過公用網際網路查詢資料時,Lakehouse 會直接連線至遠端目錄和物件儲存端點,不需要私有 Google Cloud 或遠端雲端網路基礎架構。
公開網際網路查詢工作流程如下:
- BigQuery 會針對您在 Lakehouse 目錄中定義的聯合資料表啟動查詢。
- Lakehouse 會使用儲存在 Secret Manager 中的憑證或 OIDC 權杖聯盟,安全地向遠端 Apache Iceberg 目錄進行驗證。
- Lakehouse 會透過公開網際網路擷取資料表的中繼資料和資訊清單檔案,找出相關的基礎資料檔案 (例如 AWS Amazon S3 中的檔案)。
- 基礎物件的資料存取要求會透過公用網際網路,使用標準 TLS 加密直接從Google Cloud 傳送。
- 遠端儲存服務會使用 Lakehouse 提供的臨時範圍憑證驗證要求,並透過公用網際網路將要求的資料區塊傳回 Google Cloud。