Anda dapat menggunakan cetak biru pembuat tugas Dataflow untuk menambahkan file Apache Parquet yang ada dari penyimpanan berbasis cloud (Cloud Storage atau Amazon S3) ke tabel Apache Iceberg di Lakehouse.
Proses ini menggunakan transformasi
IcebergAddFiles.
Jika file Parquet Anda ada di Cloud Storage, transformasi ini akan mendaftarkan file dengan Lakehouse tanpa memindahkan atau menulis ulang data pokok. Jika file Anda berada di sistem penyimpanan eksternal seperti Amazon S3, file tersebut akan disalin ke Cloud Storage untuk kueri yang lebih cepat melalui Lakehouse, lalu didaftarkan.
Gunakan detail koneksi berikut untuk menambahkan file Parquet dari penyimpanan berbasis cloud ke tabel Apache Iceberg di Lakehouse.
Sebelum memulai
Aktifkan Dataflow, BigQuery, dan Lakehouse API.
Untuk mendapatkan izin yang diperlukan guna membuat resource, minta administrator Anda untuk memberi Anda peran Identity and Access Management (IAM) yang diperlukan di project Anda.
Buat katalog, namespace, dan tabel Lakehouse untuk Apache Iceberg guna mengimpor data.
Buat bucket penyimpanan berbasis cloud (Cloud Storage atau Amazon S3) dan upload file Parquet Anda ke bucket.
Jika bucket penyimpanan berbasis cloud yang Anda gunakan bukan Cloud Storage Google, buat bucket Cloud Storage untuk menyimpan log error tugas Anda.
Dukungan dan batasan
Mengimpor file Parquet di penyimpanan berbasis cloud ke Lakehouse untuk Apache Iceberg menggunakan Dataflow memiliki batasan berikut:
- Data sumber harus dalam format Apache Parquet dan disimpan di Cloud Storage atau Amazon S3.
- Fitur ini hanya mendukung pipeline batch.
Mengimpor file Parquet ke Lakehouse
Gunakan langkah-langkah berikut untuk mengimpor file Parquet dari penyimpanan berbasis cloud ke tabel Iceberg di Lakehouse menggunakan UI builder tugas Dataflow.
Di konsol Google Cloud , buka halaman Lakehouse untuk Apache Iceberg.
Pilih katalog, namespace, dan tabel tempat Anda ingin mengimpor data.
Di halaman Detail tabel, klik Impor tabel.
Dalam dialog Konfigurasi impor, pilih Impor tabel dari file Apache Parquet ke Lakehouse (Batch).
Halaman Job builder Dataflow akan terbuka.
Di bagian Sumber:
Buka entri sumber CreateGlobalInput yang sudah dibuat.
Di bagian editor konfigurasi sumber YAML, masukkan satu atau beberapa jalur ke file Parquet Anda dalam urutan
elements.Untuk meningkatkan efisiensi impor, tentukan beberapa set file (glob) saat Anda mendaftarkan sejumlah besar file. Contoh:
reshuffle: true elements: - gs://BUCKET_NAME/restaurant-data/2023/*.parquet - gs://BUCKET_NAME/restaurant-data/2024/*.parquetKlik Done.
Di bagian Transforms:
Klik bagian transformasi IcebergAddFiles untuk membukanya.
Di kolom Iceberg table, masukkan namespace dan nama tabel. Contoh: NAMESPACE .TABLE_NAME .
Di bagian Properti katalog, konfigurasi item berikut:
gudang: Lokasi katalog Anda di Cloud Storage. Contoh,
gs://CATALOG_PATH.header.x-goog-user-project: Project ID Google Cloud Anda: PROJECT_ID.
Klik Done.
Jika bermigrasi dari S3, Anda perlu memberikan konfigurasi tambahan untuk menyalin file Parquet ke Cloud Storage. Langkah ini tidak wajib dilakukan jika file Anda sudah ada di Cloud Storage.
Klik bagian transformasi CopyFilesToGCS untuk membukanya.
Tetapkan nilai parameter konfigurasi gcs_file_path untuk memberikan bucket Cloud Storage yang sepenuhnya memenuhi syarat untuk menyalin file sementara. Sebaiknya gunakan bucket Cloud Storage yang sama dengan yang digunakan oleh gudang Lakehouse.
Klik Done.
1 Klik bagian Opsi Dataflow untuk membukanya.
- Klik add additional pipeline options untuk memberikan pipeline options terkait S3 Apache Beam. Misalnya, s3_region_name, s3_access_key_id, s3_secret_access_key, dan nilai yang sesuai.
Di bagian Sinks:
Klik sink Write results untuk membukanya.
Di kolom JSON location, tentukan lokasi dan nama file Cloud Storage untuk menulis hasil error. Contoh:
gs://BUCKET_NAME/errors/errors.jsonKlik Done.
Di bagian Dataflow Options, klik Run job.
Jika perlu menyesuaikan lebih lanjut pipeline Dataflow yang digunakan untuk mendaftarkan file Parquet, Anda dapat melakukannya menggunakan formulir pembuat tugas atau editor YAML.
Periksa output tugas
Setelah tugas selesai, Anda dapat memverifikasi bahwa data telah didaftarkan dengan tabel Iceberg dengan mengkuerinya di BigQuery.
Di daftar tugas Dataflow, periksa apakah status tugas adalah Berhasil.
Jika tugas gagal atau mengalami error, periksa file log error JSON di Cloud Storage untuk mengetahui detailnya.
Di konsol Google Cloud , buka halaman Studio BigQuery.
Di editor kueri, masukkan kueri SQL untuk memeriksa tabel. Anda dapat menggunakan konvensi
PROJECT_ID.CATALOG>NAMESPACE.TABLE_NAMEuntuk membuat kueri.SELECT * FROM `PROJECT_ID.CATALOG>NAMESPACE.TABLE_NAME` LIMIT 10Klik Run.
Tinjau Hasil kueri untuk memastikan data diproses dengan benar.
Langkah berikutnya
- Pelajari lebih lanjut di Tentang katalog runtime Lakehouse.
- Pelajari lebih lanjut di Ringkasan UI builder tugas Dataflow.