Cloud Data Fusion menyediakan plugin Sumber Knowledge Catalog (sebelumnya Dataplex Universal Catalog) untuk membaca data dari entity (tabel) Knowledge Catalog yang ada di aset Cloud Storage atau BigQuery. Plugin Sumber Knowledge Catalog memungkinkan Anda memperlakukan data di aset Cloud Storage sebagai tabel dan memfilter data dengan kueri SQL.
Sebelum memulai
Buat instance Cloud Data Fusion, jika Anda belum memilikinya. Plugin ini tersedia di instance yang berjalan di Cloud Data Fusion versi 6.6 atau yang lebih baru.
Data sumber harus sudah menjadi bagian dari zona Knowledge Catalog danaset(baik bucket Cloud Storage maupun set data BigQuery) .
Untuk menggunakan tabel dari Cloud Storage, Anda harus mengonfigurasi metastore untuk data lake.
Agar data dapat dibaca dari entity Cloud Storage, Dataproc Metastore harus dilampirkan ke data lake.
Data CSV di entity Cloud Storage tidak didukung.
Di project Knowledge Catalog, aktifkan Akses Google Pribadi di subnetwork, yang biasanya ditetapkan ke
default, atau tetapkaninternal_ip_onlykefalse.
Batasan
Untuk aset Cloud Storage: plugin ini tidak mendukung pembacaan dari file CSV. Plugin ini mendukung pembacaan dari format JSON, Avro, Parquet, dan ORC.
Untuk aset Cloud Storage: Tanggal Mulai Partisi dan Tanggal Akhir Partisi tidak berlaku.
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan untuk mengelola peran, minta administrator untuk memberi Anda peran IAM berikut pada agen layanan Dataproc dan agen layanan Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
- Developer Dataplex (
roles/dataplex.developer) - Pembaca Data Dataplex (
roles/dataplex.dataReader) - Pengguna Metadata Dataproc Metastore (
roles/metastore.metadataUser) - Agen Layanan Cloud Dataplex (
roles/dataplex.serviceAgent) - Pembaca Metadata Dataplex (
roles/dataplex.metadataReader)
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Menambahkan plugin ke pipeline
Di Google Cloud Konsol, buka halaman Instance Cloud Data Fusion.
Halaman ini memungkinkan Anda mengelola instance.
Klik Lihat instance untuk membuka instance Anda di UI Cloud Data Fusion.
Buka halaman Studio, luaskan menu Sumber, lalu klik Dataplex.
Mengonfigurasi plugin
Setelah Anda menambahkan plugin ini ke pipeline di halaman Studio, klik sumber Knowledge Catalog untuk mengonfigurasi propertinya.
Untuk mengetahui informasi selengkapnya tentang konfigurasi, lihat referensi Sumber Dataplex.
Opsional: Memulai dengan pipeline contoh
Pipeline contoh tersedia, termasuk pipeline sumber SAP ke sink Knowledge Catalog dan pipeline sumber Knowledge Catalog ke sink BigQuery.
Untuk menggunakan pipeline contoh, buka instance Anda di UI Cloud Data Fusion, klik Hub > Pipelines, lalu pilih salah satu pipeline Knowledge Catalog. Dialog akan terbuka untuk membantu Anda membuat pipeline.
Langkah berikutnya
- Menyerap data dengan Cloud Data Fusion menggunakan plugin Sink Knowledge Catalog.