In diesem Dokument wird beschrieben, wie Sie Daten-Insights für Ihre strukturierten Daten generieren, ansehen und verwalten. Mithilfe von KI-gestützten Data Insights können Sie die Datenexploration beschleunigen, indem Beschreibungen, Beziehungsdiagramme und SQL-Abfragen automatisch aus den Metadaten Ihrer Tabellen und Datasets generiert werden.
In BigQuery Studio können Sie Data Insights für BigQuery-Datasets, -Tabellen, -Ansichten, Google Cloud Lakehouse-Tabellen und externe BigQuery-Tabellen generieren.
In Knowledge Catalog können Sie Daten-Insights für Lakehouse-Iceberg-REST-Katalogtabellen generieren.
Hinweis
Bevor Sie Datenstatistiken verwenden, müssen Sie die folgenden Voraussetzungen erfüllen:
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zur Verwendung von Data Insights benötigen:
-
Schreibgeschützter Zugriff auf die generierten Statistiken:
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) für das Projekt, das die Ressource enthält -
Iceberg-REST-Katalogtabellendaten lesen:
BigLake-Betrachter (
roles/biglake.viewer) für die Ressource -
Beschreibungen als Aspekte veröffentlichen:
Dataplex Catalog Editor (
roles/dataplex.catalogEditor) auf Ressource -
Abfragen als Aspekte veröffentlichen:
Dataplex Entry and EntryLink Owner (
roles/dataplex.entryOwner) für Ressource
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Verwenden von Datenstatistiken erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind für die Verwendung von Data Insights erforderlich:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.run
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
APIs aktivieren
Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden:
- Dataplex-API
- BigQuery API
- Gemini for Google Cloud API
Rollen, die zum Aktivieren von APIs erforderlich sind
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen
Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Projekt in Google Cloud aktivieren.
Daten vorbereiten
Bei Google Cloud Lakehouse-Tabellen müssen Ihre Daten in Cloud Storage gespeichert sein und Sie müssen eine Google Cloud Lakehouse-Tabelle erstellt haben.
Bei Tabellen im Iceberg-REST-Katalog müssen Ihre Tabellen im Lakehouse-Laufzeitkatalog registriert sein.
Statistiken in BigQuery generieren
Datenstatistiken für BigQuery-Datasets,Google Cloud Lakehouse-Tabellen, BigQuery-Tabellen, BigQuery-Ansichten und externe BigQuery-Tabellen werden mit Gemini in BigQuery generiert und können nur in BigQuery Studio generiert werden.
Sie müssen zuerst Gemini in BigQuery einrichten, bevor Sie Statistiken generieren können. Nachdem Sie Erkenntnisse generiert haben, können Sie sie in Knowledge Catalog ansehen und ändern.
Weitere Informationen zum Generieren von Statistiken in BigQuery finden Sie in den folgenden Dokumenten:
Statistiken für Iceberg-REST-Katalogtabellen generieren
Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.
Wählen Sie unter Filter die Option Lakehouse aus.
Wählen Sie die Iceberg-REST-Katalogtabelle aus, für die Sie Statistiken generieren möchten.
Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht generiert.
Wenn Sie Statistiken generieren und sie dauerhaft als Aspekte an die Tabelle anhängen möchten, klicken Sie auf Generieren und veröffentlichen. Dadurch werden die Statistiken indexierbar, durchsuchbar und für andere Nutzer in Ihrer Organisation im Knowledge Catalog sichtbar.
Wenn Sie Statistiken generieren und sie während Ihrer aktuellen Sitzung vorübergehend ansehen möchten, klicken Sie auf Ohne Veröffentlichung generieren. Verwenden Sie diese Option, wenn Sie nur eine schnelle Analyse der Daten benötigen, ohne die Metadaten im Knowledge Catalog zu speichern.
Weitere Informationen zu den Unterschieden zwischen den Modi Generieren und veröffentlichen und Generieren ohne Veröffentlichung finden Sie unter Modi zum Generieren von Datenanalysen.
Wählen Sie eine Region aus, um Insights zu generieren, und klicken Sie auf Generieren.
Es dauert einige Minuten, bis die Statistiken erfasst werden.
Klicken Sie auf den Tab Statistiken und sehen Sie sich Folgendes an:
- Beschreibungen: Dies sind die KI-generierten Zusammenfassungen, in denen der Zweck der Tabelle erläutert und bestimmte Spalten beschrieben werden.
- Beispielabfragen: Dies ist die Liste der angepassten SQL-Abfragen, die speziell für Ihr Dataset-Schema und Ihren Dataset-Inhalt entwickelt wurden.
Wenn Sie die SQL-Abfrage sehen möchten, mit der eine Frage beantwortet wird, klicken Sie auf die Frage.
Generierte Statistiken für eine Ressource ansehen
So rufen Sie die generierten Statistiken für eine Ressource auf:
Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.
Suchen Sie nach der Ressource, für die Sie Statistiken aufrufen möchten.
Klicken Sie in den Suchergebnissen auf die Ressource, um die Detailseite des Eintrags zu öffnen.
Sehen Sie sich die Beschreibungen und Abfragen an, die für die ausgewählte Ressource generiert wurden.
Wenn Sie die Beziehungsdiagramme aufrufen möchten, um zu sehen, wie Datenpunkte miteinander verbunden sind, klicken Sie auf den Tab Beziehungen (Vorschau). Sie können Beziehungen nur auf Tabellenebene und nicht auf Dataset-Ebene ansehen.
Tabellenstatistiken verwalten
Nachdem Sie Tabellenzusammenfassungen generiert und veröffentlicht haben, können Sie sie als Metadatenaspekte im Knowledge Catalog aufrufen und verwalten. Zu den Informationen auf Tabellenebene gehören Tabellen- und Spaltenbeschreibungen sowie Beispielabfragen.
Generierte Beschreibungen für eine Tabelle aktualisieren
Sie können Tabellen- und Spaltenbeschreibungen nur über die Dataplex API aktualisieren. Verwenden Sie dazu die Methode entries.patch.
Generierte Abfragen für eine Tabelle aktualisieren
Sie können die generierten Abfragen für eine Tabelle sowohl über die Google Cloud Console als auch über die Dataplex API aktualisieren.
Console
Suchen Sie nach der Tabelle, für die Sie die generierten Abfragen aktualisieren möchten.
Klicken Sie in den Suchergebnissen auf die Tabelle, um die Detailseite des Eintrags zu öffnen.
Klicken Sie im Bereich Anfragen auf Bearbeiten.
Aktualisieren Sie die Abfragebeschreibung nach Bedarf.
Eigentümerschaft verwalten: Standardmäßig ist die Quelle auf Agent festgelegt. Wenn Sie eine Anfrage ändern und die Quelle in Nutzer ändern, werden Ihre Änderungen bei nachfolgenden Ausführungen zur Generierung von Statistiken nicht überschrieben. Wenn die Quelle auf Agent bleibt, kann die Anfrage bei einer erneuten Generierung ersetzt werden.
Überschreibungen verwalten: Wenn Sie verhindern möchten, dass alle Abfragen bei einer erneuten Ausführung überschrieben werden, können Sie die Option User managed auf True setzen. Das gilt für alle Abfragen für diesen Metadatenaspekt, sodass keine manuellen Änderungen verloren gehen.
REST
Verwenden Sie die Methode entries.patch, um Abfragen für eine Tabelle zu aktualisieren.
Generierte Beziehungen für eine Tabelle aktualisieren
Sie können Beziehungen nur über die Dataplex API aktualisieren. Verwenden Sie dazu die Methode entries.patch.
Dataset-Statistiken verwalten
Bei Statistiken auf Dataset-Ebene liegt der Fokus auf allgemeinen Beschreibungen und Dataset-weiten Abfragen.
Generierte Beschreibungen für ein Dataset aktualisieren
Sie können die Datasetbeschreibungen nur mit der Dataplex API aktualisieren. Verwenden Sie dazu die Methode entries.patch.
Generierte Abfragen für ein Dataset aktualisieren
Sie können die generierten Abfragen für ein Dataset sowohl über die Google Cloud Console als auch über die Dataplex API aktualisieren.
Console
Suchen Sie nach dem Dataset, für das Sie die generierten Abfragen aktualisieren möchten.
Klicken Sie in den Suchergebnissen auf das Dataset, um die Detailseite des Eintrags zu öffnen.
Klicken Sie im Bereich Anfragen auf Bearbeiten.
Aktualisieren Sie die Beschreibung nach Bedarf.
Eigentümerschaft verwalten: Standardmäßig ist die Quelle auf Agent festgelegt. Wenn Sie eine Anfrage ändern und die Quelle in Nutzer ändern, werden Ihre Änderungen bei nachfolgenden Ausführungen zur Generierung von Statistiken nicht überschrieben. Wenn die Quelle auf Agent bleibt, kann die Anfrage bei einer erneuten Generierung ersetzt werden.
Überschreibungen verwalten: Wenn Sie verhindern möchten, dass alle Abfragen bei einer erneuten Ausführung überschrieben werden, können Sie die Option User managed auf True setzen. Das gilt für alle Abfragen für diesen Metadatenaspekt, sodass keine manuellen Änderungen verloren gehen.
REST
Verwenden Sie zum Aktualisieren von Abfragen für ein Dataset die Methode entries.patch.
Generierte Eintragslinks für ein Dataset aktualisieren
Beziehungen, die durch Datenanalysen ermittelt werden, werden als Eintragslinks zwischen Tabelleneinträgen gespeichert.
Diese Links enthalten ein schema-join-Attribut, das beschreibt, wie Tabellen verbunden werden.
Wenn Sie diese Beziehungen bearbeiten oder manuelle Überschreibungen vornehmen möchten, müssen Sie die Dataplex API verwenden.
Verhalten beim Aktualisieren von Eintragslinks
Wenn Sie Beziehungen über die API verwalten, ist es wichtig zu wissen, wie manuelle API-Aktualisierungen mit automatischen Hintergrundscans interagieren, damit Sie nicht versehentlich Daten überschreiben.
Manuelle Aktualisierungen (API-Ebene): Bei der
UpdateEntryLinkAPI wird die MethodePATCHverwendet, um Aspekte zu ersetzen:Vollständiger Aspekt-Ersatz: Wenn Sie den Aspekt
schema-joinin Ihre Aktualisierungsanfrage aufnehmen, ersetzt Knowledge Catalog den gesamten vorhandenen Aspekt durch den neuen, den Sie angeben.Kein automatisches Zusammenführen: Die API führt neue Einträge nicht automatisch in die interne
joins-Liste ein. Wenn Sie eine Nutzlast mit nur einem Join einreichen, werden alle zuvor vorhandenen Joins in diesem Aspekt entfernt.
Automatisierte Scans (Verhalten auf Systemebene): Bei automatisierten Scans wie Datenstatistiken wird vor dem Aufrufen der API eine spezielle Zusammenführungslogik ausgeführt, um sicherzustellen, dass Metadaten mit hoher Wahrscheinlichkeit basierend auf ihrer Quelle beibehalten werden:
Quellpriorität: Wenn in mehreren Quellen dieselbe Beziehung angegeben ist, werden sie im Knowledge Catalog in der folgenden Reihenfolge priorisiert:
USER(Manuelle Änderungen)TABLE_CONSTRAINTSQUERY_HISTORYAGENT(LLM-Vorschläge)
Aktualität von LLM: Beziehungen, die aus der
AGENT-Quelle abgeleitet werden, sind dynamisch. Wenn bei einem nachfolgenden Scan die Beziehung nicht mehr empfohlen wird, wird sie entfernt.
Eintragslinks aktualisieren
So rufen Sie Eintragslinks auf und ändern sie:
Ermitteln Sie den Link zum Eintrag.
Bevor Sie eine Beziehung aktualisieren können, müssen Sie den zugehörigen Ressourcennamen ermitteln. Dazu listen Sie alle Eintragslinks auf, die einen bestimmten Tabelleneintrag enthalten:
gcurl -X GET "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks?filter=entry_references.name=\"TABLE_ENTRY_NAME\""Ersetzen Sie Folgendes:
- PROJECT_ID: die ID Ihres Google Cloud-Projekts
- LOCATION: die Region, in der Ihr Daten-Scan ausgelöst wird
- TABLE_ENTRY_NAME: der vollständige Ressourcenname des BigQuery-Tabelleneintrags (z. B.
bigquery.googleapis.com/projects/my-project/datasets/my_dataset/tables/my_table)
Aktualisieren Sie den Eintragslink.
Verwenden Sie die Methode
PATCH, um denschema-join-Aspekt des Ziellinks zu ändern:gcurl -X PATCH "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks/ENTRYLINK_ID?aspectKeys=dataplex-types.global.schema-join" \ -d '{ "aspects": { "dataplex-types.global.schema-join": { "data": { "joins": [ { "source": { "name": "PROJECT_ID.DATASET_ID.SOURCE_TABLE", "fields": ["SOURCE_FIELD"] }, "target": { "name": "PROJECT_ID.DATASET_ID.TARGET_TABLE", "fields": ["TARGET_FIELD"] }, "type": "JOIN", "inferenceSource": "USER" } ], "userManaged": false } } } }'Ersetzen Sie Folgendes:
- ENTRYLINK_ID: die ID des Eintragslinks, der im vorherigen Identifizierungsschritt abgerufen wurde
- DATASET_ID: die ID Ihres BigQuery-Datasets
- SOURCE_TABLE: der Name der Quelltabelle
- SOURCE_FIELD: Der Spaltenname, der für den Join in der Quelltabelle verwendet wird
- TARGET_TABLE: der Name der Zieltabelle
- TARGET_FIELD: Der Spaltenname, der für den Join in der Zieltabelle verwendet wird
Nächste Schritte
Weitere Informationen zu Datenanalysen für strukturierte Daten
Informationen zum Verwenden des Discovery-Scans für unstrukturierte Daten