Pemindaian profil data untuk data tidak terstruktur di Knowledge Catalog mengubah data gelap atau file tidak terstruktur seperti PDF di Cloud Storage menjadi aset terstruktur yang dapat dikueri di BigQuery. Meskipun alat penemuan standar terbatas pada metadata tingkat file seperti ukuran dan jenis, pemindaian profil data untuk data tidak terstruktur yang didukung oleh model Vertex AI Gemini menganalisis konten file. Pemindaian ini secara otomatis mengekstrak konteks bisnis yang diperlukan untuk mendasari agen AI dan mendukung analisis lanjutan.
Otomatisasi ini menghilangkan kebutuhan untuk penguraian dokumen manual dan kode ETL kustom, sehingga Anda dapat menemukan, mengklasifikasikan, dan menggunakan data yang sebelumnya tidak dapat diakses.
Pemindaian profil data untuk data tidak terstruktur menganalisis konten file tidak terstruktur untuk mengekstrak informasi dan menyimpulkan skema. Hal ini berbeda dengan fitur insight data untuk data terstruktur, yang menghasilkan deskripsi dan kueri SQL berdasarkan metadata tabel terstruktur yang ada, dan dari pembuatan profil data statistik standar, yang menghitung metrik seperti jumlah null dan distribusi nilai.
Penemuan otomatis dan pembuatan profil semantik
Anda dapat melakukan pembuatan profil data tidak terstruktur menggunakan dua alur kerja yang berbeda, bergantung pada titik awal Anda:
Selama pemindaian penemuan Cloud Storage: Pemindaian penemuan secara otomatis menemukan file tidak terstruktur Anda di Cloud Storage dan mengatalogkannya ke dalam satu atau beberapa tabel objek di BigQuery untuk dianalisis. Tabel objek adalah tabel hanya baca di atas objek data tidak terstruktur yang berada di Cloud Storage. Saat Anda menjalankan pemindaian penemuan dengan Aktifkan inferensi semantik diaktifkan, pemindaian ini berfungsi sebagai titik entri otomatis untuk pembuatan profil data tidak terstruktur.
Sebagai pemindaian profil data mandiri untuk data tidak terstruktur: Jika sudah memiliki tabel objek BigQuery, Anda dapat menjalankan pemindaian profil data untuk data tidak terstruktur langsung di tabel tersebut. Dalam alur kerja mandiri ini, Anda juga dapat memandu ekstraksi dengan memberikan perintah yang disesuaikan dalam spesifikasi DataScan.
Saat pembuatan profil data tidak terstruktur dilakukan (baik secara otomatis selama pemindaian penemuan atau sebagai pemindaian mandiri), sistem akan mendaftarkan tabel objek sebagai entri di Knowledge Catalog. Entri mewakili aset data yang metadatanya Anda ambil. Saat beberapa tabel dibuat karena pemindaian penemuan, setiap entri memiliki tab insight-nya sendiri. Kemudian, Anda dapat membuka entri ini untuk menjelajahi insight data yang dihasilkan. Sistem melakukan tindakan berikut:
Mengidentifikasi dan mengelompokkan file (Pemindaian penemuan saja). Secara otomatis mengidentifikasi dan mengatur file tidak terstruktur di Cloud Storage ke dalam tabel objek. Tabel objek ini adalah tabel hanya baca yang menyediakan antarmuka terstruktur ke data tidak terstruktur Anda.
Melakukan pemindaian profil data untuk data tidak terstruktur. Menggunakan model Vertex AI Gemini untuk menganalisis konten dalam file guna memahami arti dan strukturnya. Hal ini mencakup inferensi entity, yang menggunakan AI generatif untuk mengekstrak atribut tertentu, misalnya,
Company,Product, atauSerial Number, dari konten file. Hal ini juga mencakup ekstraksi hubungan, yang mengidentifikasi cara entity ini terhubung, misalnya,Component is_part_of Product, untuk membuat grafik semantik. Jika menjalankan pemindaian profil mandiri, Anda dapat memandu ekstraksi ini dengan memberikan perintah yang disesuaikan dalam spesifikasi DataScan.Membuat skema dan profil grafik. Menyediakan skema relasional yang disarankan AI dan melampirkan
Graph Profileaspek (dataplex-types.global.graph-profile) ke entri katalog yang mewakili tabel objek. Aspek memungkinkan Anda mengambil metadata dalam entri. Aspek metadata ini berisi skema yang disimpulkan untuk entity (NodeType) dan hubungan (EdgeType).Memperkaya metadata. Mengisi Knowledge Catalog secara otomatis dengan metadata yang dihasilkan AI. Hal ini membuat data dapat ditelusuri dan siap untuk diekstrak.
Daripada mendesain skema database secara manual, Anda dapat melakukan ekstraksi data menggunakan orkestrasi pipeline atau SQL sekali klik. Proses ini mewujudkan entity dan hubungan yang disimpulkan ke dalam format terstruktur, seperti tabel atau tampilan BigQuery fisik.
Metode API
Anda dapat mengonfigurasi, menjalankan, dan mengelola pemindaian profil data untuk data tidak terstruktur dan entri katalog yang dihasilkan menggunakan metode REST API berikut:
| Metode API | Deskripsi |
|---|---|
projects.locations.dataScans.create |
Membuat pemindaian penemuan (menggunakan dataDiscoverySpec) atau pemindaian profil data mandiri untuk data tidak terstruktur (menggunakan unstructuredDataProfileSpec). |
projects.locations.dataScans.run |
Memicu tugas pemindaian profil data atau pemindaian penemuan sesuai permintaan untuk menganalisis file tidak terstruktur dan menghasilkan insight semantik. |
projects.locations.dataScans.get |
Mengambil detail konfigurasi dan hasil tugas terbaru dari pemindaian profil data yang ada. |
projects.locations.dataScans.jobs.list |
Mencantumkan tugas pemindaian historis untuk pemindaian profil data atau pemindaian penemuan tertentu. |
projects.locations.dataScans.jobs.get |
Mengambil hasil dan log eksekusi mendetail untuk tugas pemindaian profil data tertentu. |
projects.locations.entryGroups.entries.get |
Mengambil entri katalog yang mewakili tabel objek, termasuk aspek metadata yang dilampirkan dan dihasilkan AI (seperti GraphProfile). |
projects.locations.entryGroups.entries.patch |
Memperbarui entri katalog untuk melampirkan, mengubah, atau mengelola aspek metadata (seperti dataplex-types.global.graph-profile). |
Kasus penggunaan
Anda dapat menggunakan pemindaian profil data untuk data tidak terstruktur untuk berbagai tujuan di berbagai domain industri, termasuk hal berikut:
Penyiapan pipeline dan normalisasi tanpa ETL. Mempermudah ekstraksi data dari Cloud Storage ke BigQuery dengan mengganti parser kustom dengan saran skema otomatis dan deployment sekali klik untuk mewujudkan data ke dalam tabel, tampilan, atau grafik semantik BigQuery.
Misalnya, dalam e-commerce dan retail, marketplace dapat secara otomatis menormalkan faktur pemasok dan pesanan pembelian dalam ratusan tata letak PDF yang berbeda menjadi skema BigQuery yang kohesif dan terpadu (memetakan
Unit Pr.,Price/Pkg, danItem Costke satu kolomUnit_Price) tanpa menulis kode penguraian kustom. Dalam layanan kesehatan, ahli biostatistik dapat menyerap protokol uji klinis multi-pusat dan formulir laporan kasus (CRF) ke dalam tabel terstruktur untuk analisis kelompok yang cepat.Klasifikasi dan validasi konten. Mengelompokkan data gelap secara otomatis ke dalam aset yang dapat ditelusuri dan diperkaya dengan metadata yang dihasilkan AI, yang memungkinkan pengelola data melakukan validasi dan pemantauan entity yang diekstrak secara manual dalam skala besar.
Misalnya, dalam layanan keuangan, bank investasi yang melakukan uji tuntas M&A dapat secara otomatis mengklasifikasikan repositori besar kontrak historis dan perjanjian kredit, mengekstrak entity hukum yang kompleks (
Contracting_Parties,Indemnity_Cap,Governing_Law). Pengelola data dapat menjelajahi grafik pengetahuan visual di tab Insights untuk mengidentifikasi kewajiban berisiko tinggi sebelum mengekspor data ke laporan eksekutif.Dasar agen AI. Mendasari agen Retrieval-Augmented Generation (RAG) dengan grafik terverifikasi. Hal ini memberikan "rantai ketertelusuran" yang jelas yang menghubungkan file mentah ke logika bisnis terstruktur, mengurangi halusinasi, yang memungkinkan agen AI menavigasi gabungan multi-tabel tanpa ambiguitas.
Misalnya, dalam operasi manufaktur dan industri, perusahaan alat berat dapat mengekstrak hubungan peralatan dari log pemeliharaan lapangan dan laporan insiden yang tidak terstruktur selama beberapa dekade. Saat teknisi di lokasi bertanya kepada agen AI percakapan tentang cara mengatasi penurunan tekanan hidrolik yang tidak biasa, agen tersebut menggunakan grafik hubungan terverifikasi (
Error_Code indicates_failure Hydraulic_Valve) untuk memberikan rencana perbaikan langkah demi langkah yang akurat dengan mengutip laporan insiden historis yang tepat.
Batasan
Tinjau batasan berikut sebelum menggunakan pemindaian profil data untuk data tidak terstruktur:
Format yang didukung. Meskipun pemindaian penemuan secara otomatis mengidentifikasi dan mengelompokkan berbagai jenis file tidak terstruktur ke dalam tabel objek BigQuery, mesin inferensi semantik untuk pemindaian profil data untuk data tidak terstruktur dioptimalkan terutama untuk dokumen PDF.
Lokasi. Pemindaian profil data untuk data tidak terstruktur hanya tersedia di lokasi yang mendukung model Vertex AI Gemini 2.5 Pro (misalnya,
us-central1,europe-west1,asia-southeast1). Untuk mengetahui daftar region yang didukung, lihat bagian Region yang didukung di Gemini 2.5 Pro. Pemindaian yang dibuat di region yang tidak didukung akan menampilkan error validasi atau eksekusi.Cakupan resource. Pemindaian profil data untuk data tidak terstruktur hanya beroperasi pada tabel objek BigQuery. Pemindaian ini tidak mendukung tabel terstruktur BigQuery standar, tabel eksternal atas data terstruktur, atau tampilan BigQuery.
Harga
Selama fase Pratinjau Publik, pemindaian profil data untuk data tidak terstruktur tersedia untuk eksperimen dan pengujian berdasarkan persyaratan promosi khusus:
Inferensi semantik. Tidak ada biaya untuk menggunakan model Vertex AI Gemini guna mengekstrak informasi semantik dan menyimpulkan profil grafik selama pemindaian penemuan selama periode pratinjau.
Biaya resource yang mendasarinya. Biaya standar berlaku untuk resource yang diperlukan untuk menyimpan dan memproses data Anda:
Knowledge Catalog
Pemindaian penemuan ditagih berdasarkan SKU pemrosesan Premium Knowledge Catalog (jam DCU) untuk pemindaian dan pengelompokan file tidak terstruktur dasar. Untuk mengetahui informasi selengkapnya, lihat Harga Knowledge Catalog.
Aspek metadata yang dihasilkan AI, termasuk profil grafik, dikenai biaya penyimpanan katalog Knowledge Catalog standar.
BigQuery dan Dataform
Jika menggunakan metode ekstraksi pipeline, biaya standar untuk eksekusi Dataform dan tugas BigQuery akan berlaku.
Jika menggunakan metode SQL, biaya BigQuery ML standar (
ML.PROCESS_DOCUMENT) dan biaya pemrosesan kueri BigQuery akan berlaku.Data apa pun yang diwujudkan ke BigQuery, termasuk tabel objek, metadata yang disimpulkan, dan entity yang diekstrak, akan dikenai biaya penyimpanan dan kueri BigQuery standar. Untuk mengetahui informasi selengkapnya, lihat harga BigQuery.
Struktur penagihan khusus resmi untuk pemindaian profil data untuk data tidak terstruktur dan inferensi semantik dimulai setelah Ketersediaan Umum (GA).
Kuota
Kuota resource dan API DataScan standar berlaku untuk setiap tugas pemindaian penemuan atau pemindaian profil data. Kuota tertentu mengatur volume inferensi semantik: Total eksekusi harian pemindaian profil data untuk data tidak terstruktur pada tabel objek BigQuery dibatasi hingga 140 eksekusi per project per hari.
Saat pembuatan profil data tidak terstruktur dilakukan selama pemindaian penemuan, batas jumlah tabel yang didukung pemindaian penemuan juga berlaku. Untuk informasi lebih lanjut, lihat Kuota dan batas BigQuery.
Langkah berikutnya
- Pelajari cara menggunakan pemindaian penemuan untuk data tidak terstruktur data.
- Pelajari cara menggunakan profil data untuk data tidak terstruktur data.
- Pelajari lebih lanjut Menemukan data.
- Baca Tentang pembuatan profil data.