テーブルのタイプと機能について

Lakehouse for Apache Iceberg は複数のテーブルタイプをサポートしており、 でのレイクハウスに対してさまざまなレベルの管理、パフォーマンス、相互運用性を提供します。 Google Cloudデータの発生元、書き込みエンジンの要件、制御のニーズに応じて、 Lakehouse ランタイム カタログまたは BigQuery でサポートされているテーブル形式を選択できます。

サポートされているテーブル形式

Apache Iceberg V2 テーブルのみがサポートされています。Iceberg V1 テーブルはサポートされていません。既存の Iceberg V1 テーブルがある場合は、Lakehouse for Apache Iceberg で使用する前に、V2 にアップグレードする必要があります(たとえば、ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); を実行するか、同様のエンジン オペレーションを使用します)。

カタログとエンジン別のテーブル形式

サポートされているテーブル形式、メタストア構成、ストレージ最適化機能、エンジンの相互運用性については、以下のカタログまたはエンジンを選択してください。

Iceberg REST カタログ

Lakehouse ランタイム カタログは、Iceberg REST カタログ エンドポイントを介して Apache Iceberg テーブルを管理します。標準の REST インターフェースを提供し、Apache Spark、Apache Flink、Trino などのオープンソース エンジンとの幅広い互換性を実現します。これらのテーブルはオープンソース エンジンから作成し、Cloud Storage に保存します。ETL ワークフローをオープンソース エンジンで管理し、BigQuery からの読み取りアクセスのみが必要な場合は、このオプションが最適です。

主な特長は以下のとおりです。

  • Metastore: Lakehouse ランタイム カタログ。
  • ストレージ: Cloud Storage。
  • ストレージ最適化: お客様またはサードパーティによって管理されます。
  • 読み取り / 書き込みアクセス:
    • オープンソース エンジン: 読み取りと書き込み。
    • BigQuery: 読み取り専用。
  • ユースケース: 高度な分析、ストリーミング、AI 向けの高性能なエンタープライズ グレードのストレージ を備えたオープン レイクハウス。

Hive メタストア

Lakehouse ランタイム カタログは、Apache Spark ExternalCatalog の互換性に最適化された Apache Hive メタストア(HMS)エンドポイントを介して Apache Hive テーブルを管理し、Apache Spark、Apache Hive、BigQuery 間でデータをシームレスに共有できます。これらのテーブルはオープンソース エンジンから作成し、Cloud Storage に保存します。別のセルフホスト型 Hive メタストアを必要とせずに、ETL ワークフローをオープンソース エンジンで管理し、BigQuery からの読み取りアクセスのみが必要な場合は、このオプションが最適です。

主な特長は以下のとおりです。

  • Metastore: Lakehouse ランタイム カタログ(カスタム IMetastoreClient 経由)。
  • ストレージ: Cloud Storage(Parquet、ORC、 Avro などの形式をサポート)。
  • ストレージ最適化: お客様またはサードパーティによって管理されます。
  • 読み取り / 書き込みアクセス:
    • オープンソース エンジン(Spark と Hive): 読み取りと書き込み。
    • BigQuery: 読み取り専用。
  • ユースケース: 既存の Spark ワークロードと Hive ワークロードをフル マネージドのサーバーレス メタストアに移行する Google Cloud。

BigQuery

BigQuery は、Apache Iceberg テーブル、ネイティブ テーブル、外部テーブルをサポートしています。

  • Apache Iceberg テーブル: BigQuery から作成 して管理し、Cloud Storage に保存する Apache Iceberg テーブルです。 オープンソース エンジンで読み取ることはできますが、メタデータを管理して書き込むエンジンは BigQuery です。ワークフローを BigQuery で完全に管理する場合は、このオプションが最適です。

  • ネイティブ テーブル: ネイティブ BigQuery テーブルです。フルマネージドで、最先端の分析機能と管理機能が提供されます。 このオプションは、Iceberg 以外のワークロードに最適です。

  • 外部テーブル: これらのテーブルは、Cloud Storage、Amazon S3、Azure Blob Storage に保存されたデータ用の BigQuery 固有の 構造です。データとメタデータはセルフマネジメントされ、BigQuery は読み取りアクセス権のみを持ちます。サードパーティ カタログまたはストレージで直接管理するデータには、このオプションを選択します。

テーブルタイプを比較する

次の表を使用して、Lakehouse ランタイム カタログと BigQuery のテーブルタイプを比較します。

Lakehouse

Apache Iceberg(GA) Apache Hive(プレビュー)
Metastore Lakehouse ランタイム カタログ Lakehouse ランタイム カタログ
ストレージ Cloud Storage Cloud Storage
ストレージ最適化 お客様またはサードパーティが管理 お客様またはサードパーティが管理
読み取り / 書き込み オープンソース エンジン(読み取り/書き込み)

BigQuery(読み取り専用)
オープンソース エンジン(読み取り/書き込み)

BigQuery(読み取り専用)
高度なオペレーション なし なし
ユースケース オープン レイクハウス 既存の Spark ワークロードと Hive ワークロードをフルマネージドのサーバーレス メタストアに移行する

BigQuery

BigQuery マネージド Iceberg 外部テーブル 標準テーブル
Metastore BigQuery 外部またはセルフホストのメタストア BigQuery
ストレージ Cloud Storage Cloud Storage / Amazon S3 / Azure BigQuery
ストレージ最適化 Google が管理 お客様またはサードパーティが管理 Google が管理
読み取り / 書き込み オープンソース エンジン(Iceberg ライブラリでの読み取り専用、BigQuery Storage API との読み取り/書き込みの相互運用性)

BigQuery(読み取り/書き込み)

オープンソース エンジン(読み取り/書き込み)

BigQuery(読み取り専用)
オープンソース エンジン( BigQuery Storage API との読み取り/書き込みの相互運用性)

BigQuery(読み取り/書き込み)

高度なオペレーション BigQuery Storage Write API、変更データ キャプチャ(CDC)、複数ステートメント トランザクションによる高スループット ストリーミング なし BigQuery Storage Write API、変更データ キャプチャ(CDC)、複数ステートメント トランザクションによる高スループット ストリーミング
ユースケース 高度な分析、ストリーミング、AI 向けの高性能なエンタープライズ グレードのストレージを備えたオープン レイクハウス BigQuery ロード用のステージング テーブル、レガシー クエリ専用テーブル 高度な分析、ストリーミング、AI 向けのエンタープライズ グレードのストレージ

次のステップ