本文定義 Lakehouse for Apache Iceberg 的重要詞彙和概念。
本頁面並非詳盡的功能清單,而是 Google Cloud Lakehouse 說明文件中使用的術語和概念一般參考資料。
核心概念
下列概念是 Google Cloud Lakehouse 架構的基礎。
資料湖倉
資料湖倉結合了資料湖泊的成本效益和彈性,以及資料倉儲的資料管理和效能。您可以在 Cloud Storage 中以開放格式儲存資料,並使用 BigQuery 功能,例如精確的安全控管和快速查詢。
獎章架構
資料湖倉的常見設計模式是獎章架構,可將資料依結構和品質,邏輯上整理成漸進式層級:
- 青銅 (原始) 層:在 Cloud Storage 中,以 Apache Iceberg 等開放格式擷取及儲存原始資料。
- 銀層 (已清除):清除、篩選原始資料並加以增補,然後轉換為標準化資料表。
- 金層 (彙整):提供經過完整彙整的業務層級資料表。在 Google Cloud 的 Lakehouse 中,BigQuery 通常用於提供黃金層,以利高效能的消耗、報表和分析。
開放互通性
開放互通性是指多個分析和交易系統 (例如 BigQuery、Apache Spark 和 Apache Flink) 能夠以 Apache Iceberg 等開放格式,對單一資料副本執行作業。這樣一來,就不必重複處理資料,並確保不同工具中的資料檢視畫面一致。
Lakehouse 執行階段目錄
Lakehouse 執行階段目錄是集中式無伺服器中繼資料服務,可做為 Google Cloud Lakehouse 的單一事實來源。可讓 Apache Spark、Apache Flink 和 BigQuery 等多個引擎同時探索及查詢相同資料表。
目錄類型
Lakehouse 執行階段目錄提供不同類型的目錄,方便您管理中繼資料。
Apache Iceberg REST 目錄端點
這是以 Apache Iceberg REST 目錄端點為基礎的目錄。可讓開放原始碼引擎與 BigQuery 互通,並支援憑證販售和災難復原等功能。
BigQuery 的自訂 Apache Iceberg 目錄
這項整合功能會直接使用 BigQuery 目錄,做為受管理 Apache Iceberg 資料表的後端中繼資料服務。
Apache Hive 目錄端點
這個端點可與依附於 Apache Hive 中繼存放區 (HMS) 介面的開放原始碼工作負載相容,讓您在Google Cloud上針對全代管中繼存放區服務執行 Apache Hive 或 Spark 工作負載。
資料表類型
Google Cloud 的 Lakehouse 支援多種資料表格式,具體取決於用於管理資料的引擎,以及您使用的目錄端點。
Apache Iceberg 資料表
這些是您從開放原始碼引擎建立並儲存在 Cloud Storage 中的 Apache Iceberg 資料表。Lakehouse 執行階段目錄會透過 Apache Iceberg REST 目錄端點管理這些資料表。開放原始碼引擎可讀取及寫入這些資料表,而 BigQuery 只能讀取。如果您希望 ETL 工作流程由開放原始碼引擎管理,建議使用這個選項。
BigQuery 資料表
這些資料表由 BigQuery 管理。
Apache Iceberg 資料表
這些是您從 BigQuery 建立並儲存在 Cloud Storage 中的 Apache Iceberg 資料表。BigQuery 會處理所有資料版面配置和最佳化作業。雖然多個引擎都能讀取這些資料表,但只有 BigQuery 引擎可以直接寫入。
原生資料表
這些資料表由 BigQuery 管理,並將資料儲存在 BigQuery 儲存空間中。您可以將這些表格連結至 Lakehouse 執行階段目錄。
外部資料表
外部資料表位於 Lakehouse 執行階段目錄之外。資料和中繼資料會在第三方目錄 (例如 Cloud Storage、S3 或 Azure Blob Storage) 中自行管理。BigQuery 只能從這些資料表讀取資料。
表格功能
表格演變
Google Cloud 的 Lakehouse 支援 Apache Iceberg 資料表演進,可讓您隨著時間變更資料表的結構定義或分區規格,不必重新編寫資料表資料或重新建立資料表。
時間回溯
時間回溯功能可讓您查詢特定時間點或快照 ID 的資料表資料。這項功能有助於稽核、重現實驗,或在誤刪後還原資料。
中繼資料快取
中繼資料快取功能可加快外部資料表的查詢效能。這項功能會在 BigQuery 儲存空間中儲存資料表的中繼資料副本,減少查詢執行期間從 Cloud Storage 讀取中繼資料檔案的需求。
Google Cloud 的 Lakehouse 資料表管理
Google Cloud 的 Lakehouse 資料表管理功能會自動執行壓縮和垃圾回收等工作,簡化代管資料表的 Lakehouse 維護作業。確保查詢效能和儲存效率達到最佳狀態。
互通性概念
BigQuery 目錄聯盟
透過 BigQuery 目錄同盟,您可以使用 Lakehouse 執行階段目錄 Apache Iceberg REST 目錄端點,將 BigQuery 管理的資料表 (例如 Iceberg 管理的資料表) 曝光給外部開放原始碼 (OSS) 引擎,例如 Apache Spark 和 Trino。
Apache Iceberg REST 目錄端點不會建立專屬的 Lakehouse 目錄容器來儲存中繼資料,而是純粹做為 Proxy 閘道,直接將目錄要求路由至 BigQuery 的內部目錄。您可以使用標準 BigQuery DDL 或 API,直接在 BigQuery 中建立及管理資料表,同時透過 REST 目錄端點,授予外部 OSS 引擎唯讀存取權,查詢這些資料表。
跨雲端 Lakehouse
跨雲端 Lakehouse 可擴充 Google Cloud 的 Lakehouse,讓您連線至遠端外部目錄 (例如 Databricks Unity Catalog 或 AWS Glue)。這項服務會同步處理其他雲端供應商的 Metadata,讓您透過 Apache Iceberg REST 目錄端點,使用 BigQuery 或外部開放原始碼引擎查詢資料,不必遷移資料。
公開資料集
Google Cloud 的 Lakehouse 透過 Apache Iceberg REST 目錄提供高品質的公開資料集,讓您享有唯讀存取權,可進行探索和測試,不必管理基礎架構。
P.C.N.T. 命名結構
P.C.N.T. 命名結構是四部分慣例,用於從 BigQuery 查詢 Lakehouse 執行階段目錄中的資料表,並以專屬方式識別資料表。代表 Project.Catalog.Namespace.Table:
- 專案:專案 ID。 Google Cloud
- 目錄:Lakehouse 執行階段目錄的名稱。
- 命名空間:資料表的邏輯分組 (類似於資料集)。
- 資料表:資料表的名稱。
安全性觀念
連線
連線是 BigQuery 資源,可儲存存取外部資料的憑證。在 Google Cloud 的 Lakehouse 中,連線會委派 Cloud Storage 的存取權,讓連線的服務帳戶代您存取儲存空間 bucket。
憑證販售
使用 Lakehouse 執行階段目錄時,憑證販售機制有助於加強存取控管。啟用後,這項服務會產生短期憑證,並縮減憑證範圍,只授予查詢所需的特定檔案路徑存取權。
統合治理
透過與 Knowledge Catalog 整合,統一管理功能可讓您集中定義及強制執行安全性和資料管理政策。將資料表登錄至 Lakehouse 執行階段目錄時,系統會自動將對應項目登錄至業務中繼資料目錄 (Knowledge Catalog),讓您不必移動或複製檔案,就能跨引擎進行資料沿襲、語意搜尋和集中式管理。
查詢引擎概念
Google Cloud 的 Lakehouse 會將儲存空間與運算資源分離,讓各種分析引擎與開放式資料表互動。
Managed Service for Apache Spark
Managed Service for Apache Spark (舊稱 Managed Service for Apache Spark) 提供全代管執行階段,可處理 Apache Iceberg 等開放式資料表格式。支援兩種主要執行模式:
- 無伺服器批次:專為自動化、非互動式資料處理管道和 ETL 工作負載設計。這種依執行次數付費的模式可免除叢集管理作業、消除工作之間的資源爭用,並自動執行基礎架構維護作業。
- 無伺服器互動式工作階段:專為探索性資料分析、資料工程和資料科學實驗而設計。互動式工作階段會在幕後使用 Spark Connect 或遠端 Spark 核心,為 Apache Spark 筆記本提供支援,並提供自動調度資源的環境,完全不必設定基礎架構。
服務級別
針對 Lakehouse 執行階段目錄執行 Apache Spark 工作負載時,您可以選擇不同的服務層級:
- 標準級:預設執行級別,適用於標準批次處理工作負載。
- 進階層級:提供進階功能,包括支援無伺服器互動式筆記本工作階段,以及 Lightning Engine 等可加速效能的功能。
工作階段範本
工作階段範本可簡化無伺服器互動式工作階段的設定。管理員可透過這些設定定義並保留常見的環境設定 (例如目錄屬性、網路設定和執行階段版本)。這項功能可減少重複設定,進而提高一致性及開發人員工作效率。您可以使用 Google Cloud 控制台、gcloud CLI、REST API 或 Terraform 建立及管理工作階段範本。
可靠性概念
跨區域複製作業
跨區域複寫功能會在多個區域複寫中繼資料,確保區域服務中斷時目錄仍可使用。
容錯移轉
容錯移轉是指在區域服務中斷期間,在主要和次要區域之間切換,以維持目錄作業的程序。