Übersicht über Data Insights

Mit Data Insights können Sie unbekannte Daten mithilfe von KI-generierten Beschreibungen, Beziehungsdiagrammen und SQL-Abfragen untersuchen. Diese Gemini in BigQuery-Funktion analysiert Ihre Metadaten, damit Sie Datenstrukturen und ‑inhalte schnell verstehen. Mit diesen Statistiken können Sie Ihre Analyse ohne aufwendige manuelle Einrichtung beginnen.

Hinweis

Datenstatistiken werden mit Gemini in BigQuery generiert. Damit Sie Statistiken generieren können, müssen Sie zuerst Gemini in BigQuery einrichten.

Arten von Data Insights

Sie können Data Insights auf Tabellen- oder Dataset-Ebene generieren:

  • Für Tabellen:Gemini generiert Fragen in natürlicher Sprache und die entsprechenden SQL-Abfragen, damit Sie die Daten in einer einzelnen Tabelle besser verstehen. Mit Tabellenstatistiken können Sie Datenmuster, Anomalien, Ausreißer oder Qualitätsprobleme in einer Tabelle erkennen. Gemini generiert auch Tabellen- und Spaltenbeschreibungen.

  • Für Datasets: (Vorschau) Gemini generiert ein interaktives Beziehungsdiagramm mit tabellenübergreifenden Beziehungen und tabellenübergreifenden SQL-Abfragen, damit Sie die Beziehungen zwischen Tabellen in einem Dataset besser verstehen. Mit Beziehungsdiagrammen können Sie herausfinden, wie Daten abgeleitet werden, was bei Problemen mit Qualität, Konsistenz oder Redundanz hilfreich sein kann. Mit tabellenübergreifenden Abfragen können Sie umfassendere Beziehungen finden. Sie können beispielsweise den Umsatz nach Kundensegment berechnen, indem Sie Daten aus einer Verkaufstabelle und einer Kundentabelle verwenden.

Wenn Sie weitere Informationen benötigen, können Sie in Data Canvas weiterführende Fragen stellen.

Tabellenstatistiken

Tabellenstatistiken helfen Ihnen, den Inhalt, die Qualität und die Muster in einer einzelnen BigQuery-Tabelle zu verstehen. Wenn Sie beispielsweise Abfragen generieren, die statistische Analysen durchführen, können Sie mit Tabellenstatistiken Datenmuster, Anomalien und Ausreißer erkennen. Tabellenstatistiken können auch dabei helfen, Qualitätsprobleme zu erkennen, insbesondere wenn Datenprofilscans für eine Tabelle verfügbar sind. Wenn Sie Statistiken für eine Tabelle generieren, stellt Gemini anhand der Metadaten der Tabelle eine Tabellenbeschreibung, Spaltenbeschreibungen und die Ausgabe des Profilscans bereit. Folgende Optionen sind verfügbar:

  • Abfragen generieren:Schlägt Fragen in natürlicher Sprache vor und stellt die entsprechenden SQL-Abfragen zur Beantwortung bereit. So können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen durchführen, ohne SQL von Grund auf neu schreiben zu müssen.
  • Beschreibungen generieren:Generiert Beschreibungen für die Tabelle und ihre Spalten. Gemini verwendet die Ausgabe des Profilscans (falls verfügbar), um die generierten Beschreibungen zu fundieren. Sie können diese Beschreibungen überprüfen, bearbeiten und in Knowledge Catalog veröffentlichen, um die Auffindbarkeit und Dokumentation von Daten zu verbessern.

Dataset-Statistiken

Dataset-Statistiken helfen Ihnen, die Beziehungen und Join-Pfade zwischen mehreren Tabellen in einem BigQuery-Dataset zu verstehen. So erhalten Sie einen ganzheitlichen Überblick über die Inhalte des Datasets. Wenn Sie Statistiken für ein Dataset generieren, stellt Gemini Folgendes bereit:

  • Dataset-Beschreibung:Eine KI-generierte Zusammenfassung des Datasets.
  • Beziehungen:Eine visuelle, interaktive Karte mit den Beziehungen zwischen Tabellen im Dataset. Wenn Sie den Mauszeiger auf Verbindungen bewegen, werden Details zu den Beziehungen angezeigt, z. B. Join-Schlüssel.
  • Beziehungstabelle:Eine tabellarische Ansicht der Beziehungen zwischen Tabellen, einschließlich Fremdschlüsseln und abgeleiteten Joins. Beziehungen können schemadefiniert (aus Primär- und Fremdschlüsselbeschränkungen), nutzungsbasiert (aus Abfragelogs) sein oder von Gemini anhand von Tabellen- und Spaltennamen und ‑beschreibungen abgeleitet werden.
  • Abfrageempfehlungen:Beispielhafte SQL-Abfragen, die zeigen, wie Daten aus verschiedenen Tabellen basierend auf den ermittelten Beziehungen verknüpft werden.

Beispiel für Tabellenstatistiken

Nehmen wir eine Tabelle namens telco_churn mit Spalten wie CustomerID, Tenure, InternetService, Contract, MonthlyCharges und Churn an. In der folgenden Tabelle werden die Metadaten der Tabelle beschrieben.

Feldname Typ
CustomerID STRING
Gender STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contract STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT64
Churn BOOL

Data Insights generiert die folgenden Beispielabfragen für diese Tabelle:

  • Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      customers DESC
    LIMIT 1;
    

Beispiel für Dataset-Statistiken

Nehmen wir ein Dataset mit den Tabellen order_items und inventory_items an. Dataset-Statistiken können ableiten, dass order_items.inventory_item_id mit inventory_items.id zusammenhängt.

Basierend auf diesen Beziehungen kann Gemini die folgende tabellenübergreifende Abfrage generieren:

Die fünf Produktkategorien mit dem höchsten durchschnittlichen Verkaufspreis und den entsprechenden durchschnittlichen Kosten ermitteln.

SELECT
  ii.product_category,
  AVG(oi.sale_price) AS avg_sale_price,
  AVG(ii.cost) AS avg_cost
FROM
  `ecommerce_data.order_items` AS oi
JOIN
  `ecommerce_data.inventory_items` AS ii
ON oi.inventory_item_id = ii.id
GROUP BY
  ii.product_category
ORDER BY
  avg_sale_price DESC
LIMIT 5;

Data Insights-Workflows

In diesem Abschnitt werden die wichtigsten Workflows beschrieben, die verschiedene Nutzerrollen mit der Data Insights-Funktion in BigQuery ausführen können.

Workflows für Datennutzer

Diese Workflows konzentrieren sich auf Aufgaben für Datenanalysten, Business-Analysten und andere Nutzer, die Daten finden, verstehen und analysieren müssen.

  • BigQuery-Tabelle verstehen:Schema, Inhalt und potenzielle Verwendung einer bestimmten Tabelle schnell erfassen. Nachdem Sie in BigQuery Studio eine Tabelle ausgewählt haben, können Sie die folgenden Aufgaben ausführen:

    • Automatisch generierte Tabellen- und Spaltenbeschreibungen überprüfen.

    • Vorgeschlagene Fragen in natürlicher Sprache und entsprechende SQL-Abfragen untersuchen, um die Nuancen der Daten zu verstehen.

    • Vorgeschlagene Abfragen anpassen und ausführen, um die Analyse zu starten.

    Weitere Informationen zum Generieren und Ansehen von Tabellenstatistiken finden Sie unter Tabellenstatistiken generieren.

  • Gesamtes Dataset untersuchen:Beziehungen zwischen Tabellen in einem Dataset ermitteln und die Gesamtstruktur verstehen. Nachdem Sie in BigQuery Studio ein Dataset ausgewählt haben, können Sie die folgenden Aufgaben ausführen:

    • Dataset-Statistiken generieren und ansehen.

    • Mit dem interaktiven Beziehungsdiagramm Tabellenverbindungen visualisieren.

    • Die Beziehungstabelle nach Join-Schlüsseln und Verbindungstypen (schemadefiniert, nutzungsbasiert, von LLM abgeleitet) analysieren.

    • Vorgeschlagene tabellenübergreifende SQL-Abfragen verwenden, um mehrere Tabellen effektiv abzufragen.

    Weitere Informationen zum Generieren und Ansehen von Dataset-Statistiken, siehe Dataset-Statistiken generieren.

Workflows für Datenproduzenten

Diese Workflows sind für Data Engineers, Analytics Engineers und andere Nutzer, die Daten-Assets erstellen und verwalten.

  • Grundlegende Datendokumentation generieren:Wichtige Metadatenbeschreibungen automatisch erstellen und verwalten. Sie können folgende Aufgaben ausführen:

    • Nach dem Erstellen oder Ändern einer Tabelle Data Insights auslösen, um Tabellen- und Spaltenbeschreibungen zu generieren. Sie können diese Beschreibungen im großen Maßstab mit der Knowledge Catalog Automated Metadata Generation API generieren.

    • Den KI-generierten Text überprüfen und verfeinern, um die technische Richtigkeit und geschäftliche Relevanz sicherzustellen.

    Weitere Informationen zum Generieren von Tabellen- und Spaltenbeschreibungen, siehe Tabellenstatistiken generieren.

  • Dataset-Verständnis für Nutzer verbessern: Nutzern das Verständnis und die Verwendung der bereitgestellten Datasets erleichtern. Sie können folgende Aufgaben ausführen:

    • Dataset-Statistiken für wichtige Datasets generieren, insbesondere für solche mit komplexen Beziehungen.

    • Sorgen Sie dafür, dass Datenprofilscans für Tabellen ausgeführt werden, um umfassenden Kontext für genauere und nützlichere Statistiken zu erhalten.

    Weitere Informationen finden Sie unter Dataset-Statistiken generieren und Statistiken mit Datenprofilergebnissen fundieren.

Workflows für Data Stewards

Diese Workflows unterstützen Data Stewards und Governance-Teams bei der Aufrechterhaltung der Datenintegrität und des Vertrauens.

  • KI-generierte Metadaten validieren und prüfen:Genauigkeit und Zuverlässigkeit der von Data Insights erstellten Metadaten sicherstellen. Sie können folgende Aufgaben ausführen:

    • Beschreibungen und Beziehungen, die von der Funktion „Statistiken“ generiert wurden, regelmäßig überprüfen.

    • Abgeleitete Beziehungen im Beziehungsdiagramm mit etablierten Datenmodellen und Geschäftslogik vergleichen.

    • Ungenauigkeiten in den KI-generierten Metadaten überprüfen und korrigieren.

    Weitere Informationen finden Sie unter Tabellenstatistiken generieren und Dataset-Statistiken generieren.

Preise

Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.

Kontingente und Limits

Informationen zu Kontingenten und Limits für diese Funktion finden Sie unter Kontingente für Gemini in BigQuery.

Beschränkungen

Für Data Insights gelten die folgenden Einschränkungen:

  • Data Insights sind für BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.

  • Für Multi-Cloud-Kunden sind keine Daten aus anderen Clouds verfügbar.

  • Data Insights unterstützen die Spaltentypen GEO oder JSON nicht.

  • Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Starten Sie die Insight-Pipeline noch einmal, um die Wahrscheinlichkeit zu erhöhen, nützlichere Abfragen zu erzeugen.

  • Für Tabellen mit Zugriffssteuerung auf Spaltenebene und eingeschränkten Nutzerberechtigungen können Sie Statistiken generieren, wenn Sie Lesezugriff auf alle Spalten der Tabelle haben. Zum Ausführen der generierten Abfragen benötigen Sie ausreichende Berechtigungen.

  • Gemini generiert Spaltenbeschreibungen für maximal 350 Spalten in einer Tabelle.

  • Bei Dataset-Statistiken können Sie Beziehungen im Beziehungsdiagramm nicht bearbeiten.

  • Wenn Sie neue Dataset-Statistiken generieren, werden die vorherigen Statistiken für dieses Dataset überschrieben.

  • Dataset-Statistiken unterstützen keine verknüpften Datasets.

Standorte

Sie können Data Insights an allen BigQuery-Standorten verwenden. Informationen dazu, wo Gemini in BigQuery Ihre Daten verarbeitet, finden Sie unter Wo verarbeitet Gemini in BigQuery Ihre Daten.

Nächste Schritte