Dataflow を使用して外部 Iceberg テーブルを Lakehouse ランタイム カタログにインポートする

サポートされている表の形式

Apache Iceberg V2 テーブルのみがサポートされています。Iceberg V1 テーブルはサポートされていません。既存の Iceberg V1 テーブルがある場合は、Lakehouse ランタイム カタログにインポートする前に、V2 にアップグレードする必要があります(ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); の実行や同様のエンジン オペレーションの使用など)。

ユースケースによっては、外部の Iceberg REST カタログ(IRC)テーブルを既存の Lakehouse for Apache Iceberg テーブルに接続する必要がある場合があります。Dataflow のジョブビルダー UI を使用すると、外部のオープンソース Iceberg カタログ テーブルをローコードまたはノーコードで Lakehouse に移行するパイプラインを構築できます。このプロセスにより、データを統合された Lakehouse マネージド Iceberg 形式に統合して、エンジン間の分析を行うことができます。

次の接続の詳細を使用して、外部 Iceberg カタログからデータをインポートします。

始める前に

データをインポートするには、次のものが必要です。

  1. 外部 Iceberg REST カタログの接続情報。たとえば、カタログ名、名前空間、テーブル名、アカウント URI、カタログにアクセスするロールなどです。
  2. データをインポートする Lakehouse Iceberg カタログ、名前空間、テーブル

サポートと制限事項

Dataflow を使用して外部 Iceberg カタログから Lakehouse for Apache Iceberg にデータをインポートする場合、次の制限事項があります。

  • この機能は、IRC(Iceberg Rest Catalog)をサポートする外部で利用可能な Iceberg プロバイダから Lakehouse への読み取りをサポートします。他の Iceberg カタログ タイプはサポートされていません。
  • この機能は、バッチ パイプラインとストリーミング パイプラインをサポートしています。

外部 Iceberg カタログ テーブルをインポートする

外部 Iceberg カタログ テーブルを Lakehouse for Apache Iceberg にインポートするには、次の手順を完了します。

  1. Google Cloud コンソールで、Lakehouse の [Metastore] ページに移動します。

    Lakehouse ランタイム カタログに移動

  2. データをインポートするカタログ、名前空間、テーブルを選択します。

  3. [テーブルの詳細] ページで、 [テーブルをインポート] をクリックします。

  4. [構成をインポート] ダイアログで、[Apache Iceberg REST Catalog から Lakehouse にテーブルをインポート(バッチ)] を選択します。

    Dataflow の [ジョブビルダー] ページが開きます。

  5. [ソース] セクションで、次の操作を行います。

    1. [Iceberg テーブル] ソースパネルを開くには、 展開矢印をクリックします。

    2. [Iceberg テーブル] フィールドに、Apache Iceberg テーブルの識別子を入力します。

    3. [カタログ名] フィールドに、カタログの名前を入力します。

    4. [フィルタ] フィールドに、使用する Iceberg フィルタを入力します。例: id > 5

    5. 省略可: ソーステーブルの列の変更を指定するには、[列を保持] セクションまたは [列を削除] セクションを使用します。

    6. [カタログのプロパティ] セクションの [カタログのタイプ] リストで、カタログのタイプを選択します。

    7. [カタログ URI] フィールドに、カタログの URI を入力します。例: http://localhost:8181

    8. [ウェアハウス名] フィールドに、カタログ名を入力します。

      一部の外部 Iceberg REST カタログ プロバイダでは、ウェアハウスが抽象化され、カタログ名がウェアハウス名として提供されます。

    9. [認証タイプ] リストで、認証タイプを選択します。例: OAUTH2

  6. 省略可: [変換] セクションで、ソースデータに変換を追加します。

  7. [シンク] セクションで、次の操作を行います。

    1. 省略可: [Lakehouse テーブル] シンクパネルを確認します。このパネルの情報(Lakehouse テーブル、カタログ名、ウェアハウスの場所など)は通常、事前入力されています。
  8. [Dataflow オプション] セクションで、[ジョブを実行] をクリックします。

次のステップ