Mulai 20 April 2026, BigLake kini disebut Lakehouse untuk Apache Iceberg. Metastore BigLake kini disebut katalog runtime Lakehouse. API Lakehouse, library klien, perintah CLI, dan nama IAM tetap tidak berubah dan masih mereferensikan BigLake.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mengimpor file Parquet di penyimpanan ke katalog runtime Lakehouse menggunakan Dataflow

Anda dapat menggunakan cetak biru pembuat tugas Dataflow untuk menambahkan file Apache Parquet yang ada dari penyimpanan berbasis cloud (Cloud Storage atau Amazon S3) ke tabel Apache Iceberg di Lakehouse.

Proses ini menggunakan transformasi IcebergAddFiles. Jika file Parquet Anda ada di Cloud Storage, transformasi ini akan mendaftarkan file dengan Lakehouse tanpa memindahkan atau menulis ulang data pokok. Jika file Anda berada di sistem penyimpanan eksternal seperti Amazon S3, file tersebut akan disalin ke Cloud Storage untuk kueri yang lebih cepat melalui Lakehouse, lalu didaftarkan.

Gunakan detail koneksi berikut untuk menambahkan file Parquet dari penyimpanan berbasis cloud ke tabel Apache Iceberg di Lakehouse.

Sebelum memulai

Aktifkan Dataflow, BigQuery, dan Lakehouse API.
Untuk mendapatkan izin yang diperlukan guna membuat resource, minta administrator Anda untuk memberi Anda peran Identity and Access Management (IAM) yang diperlukan di project Anda.
Buat katalog, namespace, dan tabel Lakehouse untuk Apache Iceberg guna mengimpor data.
Buat bucket penyimpanan berbasis cloud (Cloud Storage atau Amazon S3) dan upload file Parquet Anda ke bucket.
Jika bucket penyimpanan berbasis cloud yang Anda gunakan bukan Cloud Storage Google, buat bucket Cloud Storage untuk menyimpan log error tugas Anda.

Dukungan dan batasan

Mengimpor file Parquet di penyimpanan berbasis cloud ke Lakehouse untuk Apache Iceberg menggunakan Dataflow memiliki batasan berikut:

Data sumber harus dalam format Apache Parquet dan disimpan di Cloud Storage atau Amazon S3.
Fitur ini hanya mendukung pipeline batch.

Mengimpor file Parquet ke Lakehouse

Gunakan langkah-langkah berikut untuk mengimpor file Parquet dari penyimpanan berbasis cloud ke tabel Iceberg di Lakehouse menggunakan UI builder tugas Dataflow.

Di konsol Google Cloud , buka halaman Lakehouse untuk Apache Iceberg.

Buka Lakehouse
Pilih katalog, namespace, dan tabel tempat Anda ingin mengimpor data.
Di halaman Detail tabel, klik Impor tabel.
Dalam dialog Konfigurasi impor, pilih Impor tabel dari file Apache Parquet ke Lakehouse (Batch).

Halaman Job builder Dataflow akan terbuka.
Di bagian Sumber:
1. Buka entri sumber CreateGlobalInput yang sudah dibuat.
2. Di bagian editor konfigurasi sumber YAML, masukkan satu atau beberapa jalur ke file Parquet Anda dalam urutan elements.
  
  Untuk meningkatkan efisiensi impor, tentukan beberapa set file (glob) saat Anda mendaftarkan sejumlah besar file. Contoh:
```
reshuffle: true
elements:
  -   gs://BUCKET_NAME/restaurant-data/2023/*.parquet
  -   gs://BUCKET_NAME/restaurant-data/2024/*.parquet
```
3. Klik Done.
Di bagian Transforms:
1. Klik bagian transformasi IcebergAddFiles untuk membukanya.
2. Di kolom Iceberg table, masukkan namespace dan nama tabel. Contoh: NAMESPACE .TABLE_NAME.
3. Di bagian Properti katalog, konfigurasi item berikut:
  1. gudang: Lokasi katalog Anda di Cloud Storage. Contoh, gs://CATALOG_PATH.
  2. header.x-goog-user-project: Project ID Google Cloud Anda: PROJECT_ID.
  3. Klik Done.
4. Jika bermigrasi dari S3, Anda perlu memberikan konfigurasi tambahan untuk menyalin file Parquet ke Cloud Storage. Langkah ini tidak wajib dilakukan jika file Anda sudah ada di Cloud Storage.
  1. Klik bagian transformasi CopyFilesToGCS untuk membukanya.
  2. Tetapkan nilai parameter konfigurasi gcs_file_path untuk memberikan bucket Cloud Storage yang sepenuhnya memenuhi syarat untuk menyalin file sementara. Sebaiknya gunakan bucket Cloud Storage yang sama dengan yang digunakan oleh gudang Lakehouse.
  3. Klik Done.
  1 Klik bagian Opsi Dataflow untuk membukanya.
  1. Klik add additional pipeline options untuk memberikan pipeline options terkait S3 Apache Beam. Misalnya, s3_region_name, s3_access_key_id, s3_secret_access_key, dan nilai yang sesuai.
Di bagian Sinks:
1. Klik sink Write results untuk membukanya.
2. Di kolom JSON location, tentukan lokasi dan nama file Cloud Storage untuk menulis hasil error. Contoh:
```
gs://BUCKET_NAME/errors/errors.json
```
3. Klik Done.
Di bagian Dataflow Options, klik Run job.

Jika perlu menyesuaikan lebih lanjut pipeline Dataflow yang digunakan untuk mendaftarkan file Parquet, Anda dapat melakukannya menggunakan formulir pembuat tugas atau editor YAML.

Periksa output tugas

Setelah tugas selesai, Anda dapat memverifikasi bahwa data telah didaftarkan dengan tabel Iceberg dengan mengkuerinya di BigQuery.

Di daftar tugas Dataflow, periksa apakah status tugas adalah Berhasil.

Buka Tugas
Jika tugas gagal atau mengalami error, periksa file log error JSON di Cloud Storage untuk mengetahui detailnya.

Buka Bucket
Di konsol Google Cloud , buka halaman Studio BigQuery.

Buka BigQuery
Di editor kueri, masukkan kueri SQL untuk memeriksa tabel. Anda dapat menggunakan konvensiPROJECT_ID.CATALOG>NAMESPACE.TABLE_NAME untuk membuat kueri.
```
SELECT * FROM `PROJECT_ID.CATALOG>NAMESPACE.TABLE_NAME` LIMIT 10
```
Klik Run.
Tinjau Hasil kueri untuk memastikan data diproses dengan benar.

Langkah berikutnya

Pelajari lebih lanjut di Tentang katalog runtime Lakehouse.
Pelajari lebih lanjut di Ringkasan UI builder tugas Dataflow.

Mengimpor file Parquet di penyimpanan ke katalog runtime Lakehouse menggunakan Dataflow Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.