Mengimpor tabel Iceberg eksternal ke katalog runtime Lakehouse menggunakan Dataflow

Format tabel yang didukung

Hanya tabel Apache Iceberg V2 yang didukung; tabel Iceberg V1 tidak didukung. Jika Anda memiliki tabel Iceberg V1 yang ada, Anda harus mengupgrade-nya ke V2 (misalnya, dengan menjalankan ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); atau menggunakan operasi mesin serupa) sebelum mengimpornya ke katalog runtime Lakehouse.

Kasus penggunaan Anda mungkin mengharuskan Anda menghubungkan tabel Iceberg REST Catalog (IRC) eksternal ke tabel Lakehouse untuk Apache Iceberg yang ada. UI builder tugas Dataflow memungkinkan Anda membuat pipeline yang memigrasikan tabel katalog Iceberg open source eksternal ke Lakehouse dengan cara low-code atau no-code. Proses ini memungkinkan Anda menggabungkan data ke dalam format Iceberg terkelola Lakehouse terpadu untuk analisis lintas mesin.

Gunakan detail koneksi berikut untuk mengimpor data dari katalog Iceberg eksternal.

Sebelum memulai

Untuk mengimpor data, Anda memerlukan hal berikut:

  1. Informasi koneksi untuk Iceberg REST Catalog eksternal. Misalnya: nama katalog, namespace, nama tabel, URI akun, dan peran untuk mengakses katalog.
  2. Katalog, namespace, dan tabel Iceberg Lakehouse untuk mengimpor data.

Dukungan dan batasan

Mengimpor data dari katalog Iceberg eksternal ke Lakehouse untuk Apache Iceberg menggunakan Dataflow memiliki batasan berikut:

  • Fitur ini mendukung pembacaan dari penyedia Iceberg yang tersedia secara eksternal yang mendukung IRC (Iceberg Rest Catalog) ke Lakehouse. Jenis katalog Iceberg lainnya tidak didukung.
  • Fitur ini mendukung pipeline batch dan streaming.

Mengimpor tabel katalog Iceberg eksternal

Untuk mengimpor tabel katalog Iceberg eksternal ke Lakehouse untuk Apache Iceberg, selesaikan langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman Metastore Lakehouse.

    Buka katalog runtime Lakehouse

  2. Pilih katalog, namespace, dan tabel yang datanya ingin Anda impor.

  3. Di halaman Table details, klik Import table.

  4. Di dialog Import configuration, pilih Import a table from an Apache Iceberg REST Catalog into Lakehouse (Batch).

    Halaman Job builder Dataflow akan terbuka.

  5. Di bagian Sources:

    1. Untuk meluaskan panel sumber Iceberg table, klik panah peluas.

    2. Di kolom Iceberg table, masukkan ID tabel Apache Iceberg.

    3. Di kolom Catalog name, masukkan nama katalog.

    4. Di kolom Filter, masukkan filter Iceberg yang akan digunakan. Misalnya, id > 5.

    5. Opsional: Untuk menentukan perubahan kolom tabel sumber, gunakan bagian Keep columns atau Drop columns.

    6. Di daftar Catalog type pada bagian Catalog properties , pilih jenis katalog.

    7. Di kolom Catalog URI, masukkan URI katalog. Misalnya, http://localhost:8181.

    8. Di kolom Warehouse name, masukkan nama katalog.

      Untuk beberapa penyedia Iceberg REST Catalog eksternal, warehouse diabstraksikan, dan nama katalog diberikan sebagai nama warehouse.

    9. Di daftar Authentication type, pilih jenis autentikasi. Misalnya, OAUTH2.

  6. Opsional: Di bagian Transforms, tambahkan transformasi apa pun ke data sumber.

  7. Di bagian Sink:

    1. Opsional: Tinjau panel sink Lakehouse table. Informasi di panel ini, seperti tabel Lakehouse, nama katalog, dan lokasi warehouse, biasanya sudah diisi otomatis.
  8. Di bagian Dataflow options, klik Run job.

Langkah berikutnya