Seit dem 10. April 2026 heißt Dataplex Universal Catalog jetzt Knowledge Catalog. Die Namen der API, der Clientbibliothek, der CLI und von IAM bleiben unverändert. Weitere Informationen finden Sie unter Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Datenstatistiken für strukturierte Daten verwenden

In diesem Dokument wird beschrieben, wie Sie Daten-Insights für Ihre strukturierten Daten generieren, ansehen und verwalten. Mithilfe von KI-gestützten Data Insights können Sie die Datenexploration beschleunigen, indem Beschreibungen, Beziehungsdiagramme und SQL-Abfragen automatisch aus den Metadaten Ihrer Tabellen und Datasets generiert werden.

In BigQuery Studio können Sie Data Insights für BigQuery-Datasets, -Tabellen, -Ansichten, Google Cloud Lakehouse-Tabellen und externe BigQuery-Tabellen generieren.

In Knowledge Catalog können Sie Daten-Insights für Lakehouse-Iceberg-REST-Katalogtabellen generieren.

Hinweis

Bevor Sie Datenstatistiken verwenden, müssen Sie die folgenden Voraussetzungen erfüllen:

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zur Verwendung von Data Insights benötigen:

Schreibgeschützter Zugriff auf die generierten Statistiken: Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) für das Projekt, das die Ressource enthält
Iceberg-REST-Katalogtabellendaten lesen: BigLake-Betrachter (roles/biglake.viewer) für die Ressource
Beschreibungen als Aspekte veröffentlichen: Dataplex Catalog Editor (roles/dataplex.catalogEditor) auf Ressource
Abfragen als Aspekte veröffentlichen: Dataplex Entry and EntryLink Owner (roles/dataplex.entryOwner) für Ressource

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Verwenden von Datenstatistiken erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind für die Verwendung von Data Insights erforderlich:

dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

APIs aktivieren

Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden:

Dataplex-API
BigQuery API
Gemini for Google Cloud API

Rollen, die zum Aktivieren von APIs erforderlich sind

Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen

APIs aktivieren

Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Projekt in Google Cloud aktivieren.

Daten vorbereiten

Bei Google Cloud Lakehouse-Tabellen müssen Ihre Daten in Cloud Storage gespeichert sein und Sie müssen eine Google Cloud Lakehouse-Tabelle erstellt haben.

Bei Tabellen im Iceberg-REST-Katalog müssen Ihre Tabellen im Lakehouse-Laufzeitkatalog registriert sein.

Statistiken in BigQuery generieren

Datenstatistiken für BigQuery-Datasets,Google Cloud Lakehouse-Tabellen, BigQuery-Tabellen, BigQuery-Ansichten und externe BigQuery-Tabellen werden mit Gemini in BigQuery generiert und können nur in BigQuery Studio generiert werden.

Sie müssen zuerst Gemini in BigQuery einrichten, bevor Sie Statistiken generieren können. Nachdem Sie Erkenntnisse generiert haben, können Sie sie in Knowledge Catalog ansehen und ändern.

Weitere Informationen zum Generieren von Statistiken in BigQuery finden Sie in den folgenden Dokumenten:

Statistiken für Iceberg-REST-Katalogtabellen generieren

Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

Zur Suche
Wählen Sie unter Filter die Option Lakehouse aus.
Wählen Sie die Iceberg-REST-Katalogtabelle aus, für die Sie Statistiken generieren möchten.
Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht generiert.
Wenn Sie Statistiken generieren und sie dauerhaft als Aspekte an die Tabelle anhängen möchten, klicken Sie auf Generieren und veröffentlichen. Dadurch werden die Statistiken indexierbar, durchsuchbar und für andere Nutzer in Ihrer Organisation im Knowledge Catalog sichtbar.

Wenn Sie Statistiken generieren und sie während Ihrer aktuellen Sitzung vorübergehend ansehen möchten, klicken Sie auf Ohne Veröffentlichung generieren. Verwenden Sie diese Option, wenn Sie nur eine schnelle Analyse der Daten benötigen, ohne die Metadaten im Knowledge Catalog zu speichern.

Weitere Informationen zu den Unterschieden zwischen den Modi Generieren und veröffentlichen und Generieren ohne Veröffentlichung finden Sie unter Modi zum Generieren von Datenanalysen.
Wählen Sie eine Region aus, um Insights zu generieren, und klicken Sie auf Generieren.

Es dauert einige Minuten, bis die Statistiken erfasst werden.
Klicken Sie auf den Tab Statistiken und sehen Sie sich Folgendes an:
- Beschreibungen: Dies sind die KI-generierten Zusammenfassungen, in denen der Zweck der Tabelle erläutert und bestimmte Spalten beschrieben werden.
- Beispielabfragen: Dies ist die Liste der angepassten SQL-Abfragen, die speziell für Ihr Dataset-Schema und Ihren Dataset-Inhalt entwickelt wurden.
Wenn Sie die SQL-Abfrage sehen möchten, mit der eine Frage beantwortet wird, klicken Sie auf die Frage.

Generierte Statistiken für eine Ressource ansehen

So rufen Sie die generierten Statistiken für eine Ressource auf:

Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

Zur Suche
Suchen Sie nach der Ressource, für die Sie Statistiken aufrufen möchten.
Klicken Sie in den Suchergebnissen auf die Ressource, um die Detailseite des Eintrags zu öffnen.
Sehen Sie sich die Beschreibungen und Abfragen an, die für die ausgewählte Ressource generiert wurden.
Wenn Sie die Beziehungsdiagramme aufrufen möchten, um zu sehen, wie Datenpunkte miteinander verbunden sind, klicken Sie auf den Tab Beziehungen (Vorschau). Sie können Beziehungen nur auf Tabellenebene und nicht auf Dataset-Ebene ansehen.

Tabellenstatistiken verwalten

Nachdem Sie Tabellenzusammenfassungen generiert und veröffentlicht haben, können Sie sie als Metadatenaspekte im Knowledge Catalog aufrufen und verwalten. Zu den Informationen auf Tabellenebene gehören Tabellen- und Spaltenbeschreibungen sowie Beispielabfragen.

Generierte Beschreibungen für eine Tabelle aktualisieren

Sie können Tabellen- und Spaltenbeschreibungen nur über die Dataplex API aktualisieren. Verwenden Sie dazu die Methode entries.patch.

Generierte Abfragen für eine Tabelle aktualisieren

Sie können die generierten Abfragen für eine Tabelle sowohl über die Google Cloud Console als auch über die Dataplex API aktualisieren.

Console

Suchen Sie nach der Tabelle, für die Sie die generierten Abfragen aktualisieren möchten.
Klicken Sie in den Suchergebnissen auf die Tabelle, um die Detailseite des Eintrags zu öffnen.
Klicken Sie im Bereich Anfragen auf Bearbeiten.
Aktualisieren Sie die Abfragebeschreibung nach Bedarf.
Eigentümerschaft verwalten: Standardmäßig ist die Quelle auf Agent festgelegt. Wenn Sie eine Anfrage ändern und die Quelle in Nutzer ändern, werden Ihre Änderungen bei nachfolgenden Ausführungen zur Generierung von Statistiken nicht überschrieben. Wenn die Quelle auf Agent bleibt, kann die Anfrage bei einer erneuten Generierung ersetzt werden.
Überschreibungen verwalten: Wenn Sie verhindern möchten, dass alle Abfragen bei einer erneuten Ausführung überschrieben werden, können Sie die Option User managed auf True setzen. Das gilt für alle Abfragen für diesen Metadatenaspekt, sodass keine manuellen Änderungen verloren gehen.

REST

Verwenden Sie die Methode entries.patch, um Abfragen für eine Tabelle zu aktualisieren.

Generierte Beziehungen für eine Tabelle aktualisieren

Sie können Beziehungen nur über die Dataplex API aktualisieren. Verwenden Sie dazu die Methode entries.patch.

Dataset-Statistiken verwalten

Bei Statistiken auf Dataset-Ebene liegt der Fokus auf allgemeinen Beschreibungen und Dataset-weiten Abfragen.

Generierte Beschreibungen für ein Dataset aktualisieren

Sie können die Datasetbeschreibungen nur mit der Dataplex API aktualisieren. Verwenden Sie dazu die Methode entries.patch.

Generierte Abfragen für ein Dataset aktualisieren

Sie können die generierten Abfragen für ein Dataset sowohl über die Google Cloud Console als auch über die Dataplex API aktualisieren.

Console

Suchen Sie nach dem Dataset, für das Sie die generierten Abfragen aktualisieren möchten.
Klicken Sie in den Suchergebnissen auf das Dataset, um die Detailseite des Eintrags zu öffnen.
Klicken Sie im Bereich Anfragen auf Bearbeiten.
Aktualisieren Sie die Beschreibung nach Bedarf.
Eigentümerschaft verwalten: Standardmäßig ist die Quelle auf Agent festgelegt. Wenn Sie eine Anfrage ändern und die Quelle in Nutzer ändern, werden Ihre Änderungen bei nachfolgenden Ausführungen zur Generierung von Statistiken nicht überschrieben. Wenn die Quelle auf Agent bleibt, kann die Anfrage bei einer erneuten Generierung ersetzt werden.
Überschreibungen verwalten: Wenn Sie verhindern möchten, dass alle Abfragen bei einer erneuten Ausführung überschrieben werden, können Sie die Option User managed auf True setzen. Das gilt für alle Abfragen für diesen Metadatenaspekt, sodass keine manuellen Änderungen verloren gehen.

REST

Verwenden Sie zum Aktualisieren von Abfragen für ein Dataset die Methode entries.patch.

Generierte Eintragslinks für ein Dataset aktualisieren

Beziehungen, die durch Datenanalysen ermittelt werden, werden als Eintragslinks zwischen Tabelleneinträgen gespeichert. Diese Links enthalten ein schema-join-Attribut, das beschreibt, wie Tabellen verbunden werden.

Wenn Sie diese Beziehungen bearbeiten oder manuelle Überschreibungen vornehmen möchten, müssen Sie die Dataplex API verwenden.

Verhalten beim Aktualisieren von Eintragslinks

Wenn Sie Beziehungen über die API verwalten, ist es wichtig zu wissen, wie manuelle API-Aktualisierungen mit automatischen Hintergrundscans interagieren, damit Sie nicht versehentlich Daten überschreiben.

Manuelle Aktualisierungen (API-Ebene): Bei der UpdateEntryLink API wird die Methode PATCH verwendet, um Aspekte zu ersetzen:
- Vollständiger Aspekt-Ersatz: Wenn Sie den Aspekt schema-join in Ihre Aktualisierungsanfrage aufnehmen, ersetzt Knowledge Catalog den gesamten vorhandenen Aspekt durch den neuen, den Sie angeben.
- Kein automatisches Zusammenführen: Die API führt neue Einträge nicht automatisch in die interne joins-Liste ein. Wenn Sie eine Nutzlast mit nur einem Join einreichen, werden alle zuvor vorhandenen Joins in diesem Aspekt entfernt.
Achtung :Wenn Sie mit der API eine neue Beziehung hinzufügen und die vorhandenen beibehalten möchten, müssen Sie zuerst den aktuellen schema-join-Aspekt abrufen und alle vorhandenen Verknüpfungen in den Anfragetext für die Aktualisierung einfügen.
Automatisierte Scans (Verhalten auf Systemebene): Bei automatisierten Scans wie Datenstatistiken wird vor dem Aufrufen der API eine spezielle Zusammenführungslogik ausgeführt, um sicherzustellen, dass Metadaten mit hoher Wahrscheinlichkeit basierend auf ihrer Quelle beibehalten werden:
- Quellpriorität: Wenn in mehreren Quellen dieselbe Beziehung angegeben ist, werden sie im Knowledge Catalog in der folgenden Reihenfolge priorisiert:
  1. USER (Manuelle Änderungen)
  2. TABLE_CONSTRAINTS
  3. QUERY_HISTORY
  4. AGENT (LLM-Vorschläge)
- Aktualität von LLM: Beziehungen, die aus der AGENT-Quelle abgeleitet werden, sind dynamisch. Wenn bei einem nachfolgenden Scan die Beziehung nicht mehr empfohlen wird, wird sie entfernt.

Eintragslinks aktualisieren

So rufen Sie Eintragslinks auf und ändern sie:

Ermitteln Sie den Link zum Eintrag.

Bevor Sie eine Beziehung aktualisieren können, müssen Sie den zugehörigen Ressourcennamen ermitteln. Dazu listen Sie alle Eintragslinks auf, die einen bestimmten Tabelleneintrag enthalten:
```
gcurl -X GET "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks?filter=entry_references.name=\"TABLE_ENTRY_NAME\""
```
Ersetzen Sie Folgendes:
- PROJECT_ID: die ID Ihres Google Cloud-Projekts
- LOCATION: die Region, in der Ihr Daten-Scan ausgelöst wird
- TABLE_ENTRY_NAME: der vollständige Ressourcenname des BigQuery-Tabelleneintrags (z. B. bigquery.googleapis.com/projects/my-project/datasets/my_dataset/tables/my_table)

Aktualisieren Sie den Eintragslink.

Verwenden Sie die Methode PATCH, um den schema-join-Aspekt des Ziellinks zu ändern:

gcurl -X PATCH "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks/ENTRYLINK_ID?aspectKeys=dataplex-types.global.schema-join" \
-d '{
  "aspects": {
    "dataplex-types.global.schema-join": {
      "data": {
        "joins": [
          {
            "source": { "name": "PROJECT_ID.DATASET_ID.SOURCE_TABLE", "fields": ["SOURCE_FIELD"] },
            "target": { "name": "PROJECT_ID.DATASET_ID.TARGET_TABLE", "fields": ["TARGET_FIELD"] },
            "type": "JOIN",
            "inferenceSource": "USER"
          }
        ],
        "userManaged": false
      }
    }
  }
}'

Ersetzen Sie Folgendes:

ENTRYLINK_ID: die ID des Eintragslinks, der im vorherigen Identifizierungsschritt abgerufen wurde
DATASET_ID: die ID Ihres BigQuery-Datasets
SOURCE_TABLE: der Name der Quelltabelle
SOURCE_FIELD: Der Spaltenname, der für den Join in der Quelltabelle verwendet wird
TARGET_TABLE: der Name der Zieltabelle
TARGET_FIELD: Der Spaltenname, der für den Join in der Zieltabelle verwendet wird

Datenstatistiken für strukturierte Daten verwenden Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hinweis

Erforderliche Rollen

Erforderliche Berechtigungen

APIs aktivieren

Daten vorbereiten

Statistiken in BigQuery generieren

Statistiken für Iceberg-REST-Katalogtabellen generieren

Generierte Statistiken für eine Ressource ansehen

Tabellenstatistiken verwalten

Generierte Beschreibungen für eine Tabelle aktualisieren

Generierte Abfragen für eine Tabelle aktualisieren

Console

REST

Generierte Beziehungen für eine Tabelle aktualisieren

Dataset-Statistiken verwalten

Generierte Beschreibungen für ein Dataset aktualisieren

Generierte Abfragen für ein Dataset aktualisieren

Console

REST

Generierte Eintragslinks für ein Dataset aktualisieren

Verhalten beim Aktualisieren von Eintragslinks

Eintragslinks aktualisieren

Nächste Schritte

Datenstatistiken für strukturierte Daten verwenden