Übersicht über Data Insights
Mit Data Insights können Sie unbekannte Daten mithilfe von KI-generierten Beschreibungen, Beziehungsdiagrammen und SQL-Abfragen untersuchen. Diese Gemini in BigQuery-Funktion analysiert Ihre Metadaten, damit Sie Datenstrukturen und ‑inhalte schnell verstehen. Mit diesen Statistiken können Sie Ihre Analyse ohne aufwendige manuelle Einrichtung beginnen.
Hinweis
Datenstatistiken werden mit Gemini in BigQuery generiert. Damit Sie Statistiken generieren können, müssen Sie zuerst Gemini in BigQuery einrichten.
Arten von Data Insights
Sie können Data Insights auf Tabellen- oder Dataset-Ebene generieren:
Für Tabellen:Gemini generiert Fragen in natürlicher Sprache und die entsprechenden SQL-Abfragen, damit Sie die Daten in einer einzelnen Tabelle besser verstehen. Mit Tabellenstatistiken können Sie Datenmuster, Anomalien, Ausreißer oder Qualitätsprobleme in einer Tabelle erkennen. Gemini generiert auch Tabellen- und Spaltenbeschreibungen.
Für Datasets: (Vorschau) Gemini generiert ein interaktives Beziehungsdiagramm mit tabellenübergreifenden Beziehungen und tabellenübergreifenden SQL-Abfragen, damit Sie die Beziehungen zwischen Tabellen in einem Dataset besser verstehen. Mit Beziehungsdiagrammen können Sie herausfinden, wie Daten abgeleitet werden, was bei Problemen mit Qualität, Konsistenz oder Redundanz hilfreich sein kann. Mit tabellenübergreifenden Abfragen können Sie umfassendere Beziehungen finden. Sie können beispielsweise den Umsatz nach Kundensegment berechnen, indem Sie Daten aus einer Verkaufstabelle und einer Kundentabelle verwenden.
Wenn Sie weitere Informationen benötigen, können Sie in Data Canvas weiterführende Fragen stellen.
Tabellenstatistiken
Tabellenstatistiken helfen Ihnen, den Inhalt, die Qualität und die Muster in einer einzelnen BigQuery-Tabelle zu verstehen. Wenn Sie beispielsweise Abfragen generieren, die statistische Analysen durchführen, können Sie mit Tabellenstatistiken Datenmuster, Anomalien und Ausreißer erkennen. Tabellenstatistiken können auch dabei helfen, Qualitätsprobleme zu erkennen, insbesondere wenn Datenprofilscans für eine Tabelle verfügbar sind. Wenn Sie Statistiken für eine Tabelle generieren, stellt Gemini anhand der Metadaten der Tabelle eine Tabellenbeschreibung, Spaltenbeschreibungen und die Ausgabe des Profilscans bereit. Folgende Optionen sind verfügbar:
- Abfragen generieren:Schlägt Fragen in natürlicher Sprache vor und stellt die entsprechenden SQL-Abfragen zur Beantwortung bereit. So können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen durchführen, ohne SQL von Grund auf neu schreiben zu müssen.
- Beschreibungen generieren:Generiert Beschreibungen für die Tabelle und ihre Spalten. Gemini verwendet die Ausgabe des Profilscans (falls verfügbar), um die generierten Beschreibungen zu fundieren. Sie können diese Beschreibungen überprüfen, bearbeiten und in Knowledge Catalog veröffentlichen, um die Auffindbarkeit und Dokumentation von Daten zu verbessern.
Dataset-Statistiken
Dataset-Statistiken helfen Ihnen, die Beziehungen und Join-Pfade zwischen mehreren Tabellen in einem BigQuery-Dataset zu verstehen. So erhalten Sie einen ganzheitlichen Überblick über die Inhalte des Datasets. Wenn Sie Statistiken für ein Dataset generieren, stellt Gemini Folgendes bereit:
- Dataset-Beschreibung:Eine KI-generierte Zusammenfassung des Datasets.
- Beziehungen:Eine visuelle, interaktive Karte mit den Beziehungen zwischen Tabellen im Dataset. Wenn Sie den Mauszeiger auf Verbindungen bewegen, werden Details zu den Beziehungen angezeigt, z. B. Join-Schlüssel.
- Beziehungstabelle:Eine tabellarische Ansicht der Beziehungen zwischen Tabellen, einschließlich Fremdschlüsseln und abgeleiteten Joins. Beziehungen können schemadefiniert (aus Primär- und Fremdschlüsselbeschränkungen), nutzungsbasiert (aus Abfragelogs) sein oder von Gemini anhand von Tabellen- und Spaltennamen und ‑beschreibungen abgeleitet werden.
- Abfrageempfehlungen:Beispielhafte SQL-Abfragen, die zeigen, wie Daten aus verschiedenen Tabellen basierend auf den ermittelten Beziehungen verknüpft werden.
Beispiel für Tabellenstatistiken
Nehmen wir eine Tabelle namens telco_churn mit Spalten wie CustomerID, Tenure, InternetService, Contract, MonthlyCharges und Churn an.
In der folgenden Tabelle werden die Metadaten der Tabelle beschrieben.
| Feldname | Typ |
|---|---|
CustomerID |
STRING |
Gender |
STRING |
Tenure |
INT64 |
InternetService |
STRING |
StreamingTV |
STRING |
OnlineBackup |
STRING |
Contract |
STRING |
TechSupport |
STRING |
PaymentMethod |
STRING |
MonthlyCharges |
FLOAT64 |
Churn |
BOOL |
Data Insights generiert die folgenden Beispielabfragen für diese Tabelle:
Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY customers DESC LIMIT 1;
Beispiel für Dataset-Statistiken
Nehmen wir ein Dataset mit den Tabellen order_items und inventory_items an. Dataset-Statistiken können ableiten, dass order_items.inventory_item_id mit inventory_items.id zusammenhängt.
Basierend auf diesen Beziehungen kann Gemini die folgende tabellenübergreifende Abfrage generieren:
Die fünf Produktkategorien mit dem höchsten durchschnittlichen Verkaufspreis und den entsprechenden durchschnittlichen Kosten ermitteln.
SELECT
ii.product_category,
AVG(oi.sale_price) AS avg_sale_price,
AVG(ii.cost) AS avg_cost
FROM
`ecommerce_data.order_items` AS oi
JOIN
`ecommerce_data.inventory_items` AS ii
ON oi.inventory_item_id = ii.id
GROUP BY
ii.product_category
ORDER BY
avg_sale_price DESC
LIMIT 5;
Data Insights-Workflows
In diesem Abschnitt werden die wichtigsten Workflows beschrieben, die verschiedene Nutzerrollen mit der Data Insights-Funktion in BigQuery ausführen können.
Workflows für Datennutzer
Diese Workflows konzentrieren sich auf Aufgaben für Datenanalysten, Business-Analysten und andere Nutzer, die Daten finden, verstehen und analysieren müssen.
BigQuery-Tabelle verstehen:Schema, Inhalt und potenzielle Verwendung einer bestimmten Tabelle schnell erfassen. Nachdem Sie in BigQuery Studio eine Tabelle ausgewählt haben, können Sie die folgenden Aufgaben ausführen:
Automatisch generierte Tabellen- und Spaltenbeschreibungen überprüfen.
Vorgeschlagene Fragen in natürlicher Sprache und entsprechende SQL-Abfragen untersuchen, um die Nuancen der Daten zu verstehen.
Vorgeschlagene Abfragen anpassen und ausführen, um die Analyse zu starten.
Weitere Informationen zum Generieren und Ansehen von Tabellenstatistiken finden Sie unter Tabellenstatistiken generieren.
Gesamtes Dataset untersuchen:Beziehungen zwischen Tabellen in einem Dataset ermitteln und die Gesamtstruktur verstehen. Nachdem Sie in BigQuery Studio ein Dataset ausgewählt haben, können Sie die folgenden Aufgaben ausführen:
Dataset-Statistiken generieren und ansehen.
Mit dem interaktiven Beziehungsdiagramm Tabellenverbindungen visualisieren.
Die Beziehungstabelle nach Join-Schlüsseln und Verbindungstypen (schemadefiniert, nutzungsbasiert, von LLM abgeleitet) analysieren.
Vorgeschlagene tabellenübergreifende SQL-Abfragen verwenden, um mehrere Tabellen effektiv abzufragen.
Weitere Informationen zum Generieren und Ansehen von Dataset-Statistiken, siehe Dataset-Statistiken generieren.
Workflows für Datenproduzenten
Diese Workflows sind für Data Engineers, Analytics Engineers und andere Nutzer, die Daten-Assets erstellen und verwalten.
Grundlegende Datendokumentation generieren:Wichtige Metadatenbeschreibungen automatisch erstellen und verwalten. Sie können folgende Aufgaben ausführen:
Nach dem Erstellen oder Ändern einer Tabelle Data Insights auslösen, um Tabellen- und Spaltenbeschreibungen zu generieren. Sie können diese Beschreibungen im großen Maßstab mit der Knowledge Catalog Automated Metadata Generation API generieren.
Den KI-generierten Text überprüfen und verfeinern, um die technische Richtigkeit und geschäftliche Relevanz sicherzustellen.
Weitere Informationen zum Generieren von Tabellen- und Spaltenbeschreibungen, siehe Tabellenstatistiken generieren.
Dataset-Verständnis für Nutzer verbessern: Nutzern das Verständnis und die Verwendung der bereitgestellten Datasets erleichtern. Sie können folgende Aufgaben ausführen:
Dataset-Statistiken für wichtige Datasets generieren, insbesondere für solche mit komplexen Beziehungen.
Sorgen Sie dafür, dass Datenprofilscans für Tabellen ausgeführt werden, um umfassenden Kontext für genauere und nützlichere Statistiken zu erhalten.
Weitere Informationen finden Sie unter Dataset-Statistiken generieren und Statistiken mit Datenprofilergebnissen fundieren.
Workflows für Data Stewards
Diese Workflows unterstützen Data Stewards und Governance-Teams bei der Aufrechterhaltung der Datenintegrität und des Vertrauens.
KI-generierte Metadaten validieren und prüfen:Genauigkeit und Zuverlässigkeit der von Data Insights erstellten Metadaten sicherstellen. Sie können folgende Aufgaben ausführen:
Beschreibungen und Beziehungen, die von der Funktion „Statistiken“ generiert wurden, regelmäßig überprüfen.
Abgeleitete Beziehungen im Beziehungsdiagramm mit etablierten Datenmodellen und Geschäftslogik vergleichen.
Ungenauigkeiten in den KI-generierten Metadaten überprüfen und korrigieren.
Weitere Informationen finden Sie unter Tabellenstatistiken generieren und Dataset-Statistiken generieren.
Preise
Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.
Kontingente und Limits
Informationen zu Kontingenten und Limits für diese Funktion finden Sie unter Kontingente für Gemini in BigQuery.
Beschränkungen
Für Data Insights gelten die folgenden Einschränkungen:
Data Insights sind für BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.
Für Multi-Cloud-Kunden sind keine Daten aus anderen Clouds verfügbar.
Data Insights unterstützen die Spaltentypen
GEOoderJSONnicht.Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Starten Sie die Insight-Pipeline noch einmal, um die Wahrscheinlichkeit zu erhöhen, nützlichere Abfragen zu erzeugen.
Für Tabellen mit Zugriffssteuerung auf Spaltenebene und eingeschränkten Nutzerberechtigungen können Sie Statistiken generieren, wenn Sie Lesezugriff auf alle Spalten der Tabelle haben. Zum Ausführen der generierten Abfragen benötigen Sie ausreichende Berechtigungen.
Gemini generiert Spaltenbeschreibungen für maximal 350 Spalten in einer Tabelle.
Bei Dataset-Statistiken können Sie Beziehungen im Beziehungsdiagramm nicht bearbeiten.
Wenn Sie neue Dataset-Statistiken generieren, werden die vorherigen Statistiken für dieses Dataset überschrieben.
Dataset-Statistiken unterstützen keine verknüpften Datasets.
Standorte
Sie können Data Insights an allen BigQuery-Standorten verwenden. Informationen dazu, wo Gemini in BigQuery Ihre Daten verarbeitet, finden Sie unter Wo verarbeitet Gemini in BigQuery Ihre Daten.
Nächste Schritte
Erfahren Sie, wie Sie Tabellenstatistiken generieren.
Erfahren Sie, wie Sie Dataset-Statistiken generieren.
Weitere Informationen zur Datenprofilerstellung in Knowledge Catalog
Weitere Informationen zu Gemini in BigQuery.
Abfrageergebnisse mit Fragen in natürlicher Sprache mithilfe von Data Canvas iterieren