Data Lineage

Die Datenherkunft ist eine visuelle Karte, die den gesamten Lebenszyklus Ihrer Daten nachvollzieht. Sie sehen, woher Ihre Daten stammen (der Ursprung), wohin sie übertragen werden (die Ziele) und welche Änderungen oder Transformationen auf dem Weg stattfinden.

Sie können diese vollständige Übersicht über den Weg Ihrer Daten direkt in derGoogle Cloud -Konsole für Assets aufrufen, die in Produkten wie Knowledge Catalog (früher Dataplex Universal Catalog), BigQuery (einschließlich externer Tabellen, die für Iceberg REST Catalog erstellt wurden) und Vertex AI erstellt wurden. Da Workflows oft mehrere Regionen umfassen, unterstützt Knowledge Catalog die Datenherkunft in mehreren Regionen. So erhalten Sie eine ganzheitliche Übersicht des Wegs Ihrer Daten im globalen Google Cloud Ökosystem. Erfahrene Nutzer können diese Informationen auch über die Data Lineage API abrufen.

Warum Sie die Datenherkunft benötigen

Moderne Unternehmen verschieben und ändern ständig große Datenmengen. Beispielsweise werden Rohdaten zu Kundenkäufen in Berichte, Dashboards und Modelle für maschinelles Lernen umgewandelt. Diese Komplexität stellt Ihr Team vor große Herausforderungen:

  • Vertrauen und Überprüfung: Daten werden oft von Nutzern verwendet, die Schwierigkeiten haben, zu bestätigen, dass die Berichte und Zahlen, die sie sehen, korrekt sind und aus einer vertrauenswürdigen Quelle stammen.

  • Fehlerbehebung: Wenn in einem Abschlussbericht ein Fehler auftritt, kann es für Datenteams schwierig und zeitaufwendig sein, das Problem in jedem Schritt bis zur Ursache zurückzuverfolgen.

  • Änderungsmanagement: Bevor ein Datenelement (z. B. eine Spalte in einer Tabelle) geändert oder gelöscht wird, müssen Teams jeden einzelnen nachgelagerten Bericht oder jedes nachgelagerte Modell kennen, das darauf basiert, um zu vermeiden, dass kritische Systeme beschädigt werden.

  • Compliance: Führungskräfte müssen wissen, wie sensible Daten (z. B. Kunden- oder Finanzinformationen) in der gesamten Organisation verwendet werden, um behördliche Anforderungen zu erfüllen.

Die Datenherkunft löst diese Probleme, indem sie einen klaren, visuellen und dokumentierten Weg Ihrer Daten bietet. So können Sie Datenquellen schnell nachvollziehen, Fehler nachverfolgen, die Auswirkungen von Änderungen bewerten und die Compliance aufrechterhalten.

Workflow für die Datenherkunft

Der Workflow für die Datenherkunft umfasst die folgenden Schritte:

  1. Datenquellen und Aufnahme: Die Herkunftsinformationen aus Ihren Datenquellen sind der Ausgangspunkt für den gesamten Prozess. Weitere Informationen finden Sie unter Lineage-Quellen.

    • Google Cloud Dienste: Wenn die Data Lineage API aktiviert ist, werden von unterstützten Diensten wie BigQuery und Dataflow automatisch Lineage-Ereignisse gemeldet, wenn Daten verschoben oder transformiert werden.

    • Benutzerdefinierte Quellen: Für alle Systeme, die nicht automatisch vonGoogle Cloud -Integrationen unterstützt werden, können Sie die Data Lineage API verwenden, um Herkunftsinformationen manuell aufzuzeichnen. Wir empfehlen, Ereignisse zu importieren, die gemäß dem OpenLineage-Standard formatiert sind.

  2. Lineage-Plattform: Auf dieser zentralen Plattform werden alle Herkunftsdaten aufgenommen, modelliert und gespeichert. Weitere Informationen finden Sie unter Lineage-Informationsmodell und Granularität.

    • Data Lineage API: Diese API dient als einziger Einstiegspunkt für alle eingehenden Informationen zur Herkunft von Daten. Dabei wird ein hierarchisches Datenmodell mit drei Kernkonzepten verwendet: Prozess, Ausführung und Ereignis.

    • Verarbeitung und Speicherung: Die Plattform verarbeitet eingehende Daten und speichert sie in zuverlässigen, abfrageoptimierten Datenbanken.

  3. Benutzerfreundlichkeit: Sie können auf zwei Arten mit den gespeicherten Informationen zur Datenherkunft interagieren:

    • Visuelle Analyse: In der Google Cloud Console ruft ein Frontend-Dienst die Herkunftsdaten ab und rendert sie als interaktives Diagramm oder als interaktive Liste. Dies wird für Knowledge Catalog, BigQuery, Lakehouse (für Iceberg REST Catalog-Tabellen), die physische Ebene (Cloud Storage) und Vertex AI (für Modelle, Datasets über Pipelines sowie Feature Store-Ansichten und Feature-Gruppen) unterstützt. Das ist ideal, um den Weg Ihrer Daten visuell nachzuvollziehen. Weitere Informationen finden Sie unter Lineage-Ansichten in der Google Cloud Console.

    • Programmgesteuerter Zugriff: Mit einem API-Client können Sie direkt mit der Data Lineage API kommunizieren, um die Datenherkunft zu automatisieren. So können Sie Informationen zur Datenherkunft aus benutzerdefinierten Quellen schreiben. Außerdem können Sie die gespeicherten Daten zur Datenherkunft lesen und abfragen, um sie in anderen Anwendungen zu verwenden oder benutzerdefinierte Berichte zu erstellen.

Die richtige API zum Abrufen der Datenherkunft auswählen

Wählen Sie je nach Anwendungsfall eine der folgenden Methoden in der Data Lineage API aus:

Funktion SearchLinks SearchLineageStreaming
Tiefe 1 Ebene (unmittelbare Nachbarn) Bis zu 100 Stufen
Ausführung Synchron Streaming in Echtzeit
Anwendungsfall Einfache Suchvorgänge für direkte Quellen oder Ziele Erstellen eines vollständigen Lineage-Diagramms oder Durchführen einer Wirkungsanalyse

Richtung erkennen

  • Upstream (Quellen):
    • Legen Sie in SearchLinks das Feld target auf den FQN Ihres Assets fest.
    • Legen Sie in SearchLineageStreaming den Wert direction auf UPSTREAM fest.
  • Downstream (Ziele):
    • Legen Sie in SearchLinks das Feld source auf den FQN Ihres Assets fest.
    • Legen Sie in SearchLineageStreaming den Wert direction auf DOWNSTREAM fest.

Herkunftsquellen

Sie können Informationen zur Herkunft in Knowledge Catalog auf folgende Arten einfügen:

  • Automatisch aus integrierten Google Cloud Diensten
  • Manuell über die Data Lineage API für benutzerdefinierte Quellen
  • Ereignisse aus OpenLineage importieren

BigQuery

Wenn Sie die Herkunft der Daten in Ihrem BigQuery-Projekt aktivieren, zeichnet Knowledge Catalog automatisch die Herkunftsinformationen für Folgendes auf:

BigQuery-Kopier-, ‑Abfrage- und ‑Ladejobs werden als Prozesse dargestellt.

Wenn Sie die Prozessdetails aufrufen möchten, klicken Sie im Herkunftsdiagramm auf das Symbol Prozessdetails Symbol „Prozessdetails“.

Jeder Prozess enthält die BigQuery-job_id in der Liste attributes für den letzten BigQuery-Job.

Weitere Dienste

Die Datenherkunft unterstützt die Integration mit den folgendenGoogle Cloud -Diensten:

Datenherkunft für benutzerdefinierte Datenquellen

Mit der Data Lineage API können Sie Lineage-Informationen für jede Datenquelle manuell aufzeichnen, die von integrierten Systemen nicht unterstützt wird.

Knowledge Catalog kann Herkunftsgraphen für manuell aufgezeichnete Herkunft erstellen, wenn Sie eine fullyQualifiedName verwenden, die mit den vollqualifizierten Namen vorhandener Knowledge Catalog-Einträge übereinstimmt. Wenn Sie den Datenursprung für eine benutzerdefinierte Datenquelle aufzeichnen möchten, müssen Sie zuerst einen benutzerdefinierten Eintrag erstellen.

Jeder Prozess für eine benutzerdefinierte Datenquelle kann in der Attributliste einen sql-Schlüssel enthalten. Der Wert dieses Schlüssels wird verwendet, um eine Code-Hervorhebung im Detailbereich des Datenherkunftsgraphen zu rendern. Die SQL-Anweisung wird so angezeigt, wie sie angegeben wurde. Sie sind dafür verantwortlich, vertrauliche Informationen herauszufiltern. Beim Schlüsselnamen sql wird zwischen Groß- und Kleinschreibung unterschieden.

OpenLineage

Wenn Sie OpenLineage bereits verwenden, um Informationen zur Datenherkunft aus anderen Datenquellen zu erfassen, können Sie OpenLineage-Ereignisse in Knowledge Catalog importieren und in der Google Cloud Konsole ansehen. Weitere Informationen finden Sie unter Mit OpenLineage integrieren.

Automatisierte Nachverfolgung der Datenherkunft

Wenn Sie die Data Lineage API aktivieren, Google Cloud beginnen Systeme, die die Datenherkunft unterstützen, mit der Meldung ihrer Datenbewegungen. Jedes integrierte System kann Herkunftsinformationen für einen anderen Bereich von Datenquellen senden.

Aufnahme von Lineage-Informationen steuern

Sie können steuern, welche Google Cloud -Dienste Herkunftsdaten generieren, indem Sie die Erfassung von Herkunftsdaten für bestimmte Integrationen aktivieren oder deaktivieren. Die Erfassung von Herkunftsdaten kann auf Organisations-, Ordner- und Projektebene gesteuert werden. Während der Vorabversion wird die Konfiguration der Erfassung von Herkunftsdaten nur für Managed Service for Apache Spark unterstützt.

Im Knowledge Catalog wird die Ressourcenhierarchie (Projekt, dann Ordner, dann Organisation) ausgewertet, um die effektive Konfiguration zu ermitteln. Die erste Konfiguration, die auf einer beliebigen Ebene in diesem Aufwärtslauf explizit festgelegt wird, wird wirksam.

  • Wenn Sie eine Konfiguration auf Projektebene festlegen, wird sie vom Knowledge Catalog verwendet.
  • Wenn auf Projektebene keine Konfiguration festgelegt ist, verwendet Knowledge Catalog die Konfiguration des nächstgelegenen übergeordneten Ordners mit einer expliziten Konfiguration.
  • Wenn keine Konfiguration auf Projekt- oder Ordnerebene festgelegt ist, verwendet Knowledge Catalog die Konfiguration auf Organisationsebene.
  • Wenn auf keiner dieser Ebenen eine Konfiguration festgelegt ist, verwendet Knowledge Catalog die Systemstandardeinstellung für die Integration. Die Standardeinstellung für die Konfiguration der Herkunftsaktivierung kann Aktiviert oder Deaktiviert sein. Für Managed Service for Apache Spark ist die Herkunftserfassung standardmäßig Aktiviert, wenn die Data Lineage API aktiv ist.

Angenommen, Sie haben eine Organisation test-org mit den folgenden Lineage-Konfigurationen für Managed Service for Apache Spark:

  • Organisation test-org: Aktiviert
    • Ordner folder-a: Deaktiviert
      • Projekt project-a: Keine Konfiguration festgelegt
    • Ordner „folder-b“: Aktiviert
      • Projekt project-b: Deaktiviert

In diesem Szenario gelten die folgenden Einstellungen:

  • Für project-a ist die Erfassung der Herkunft Deaktiviert. Knowledge Catalog beginnt mit der Auswertung von project-a, findet keine Konfiguration, wechselt zu folder-a und wendet die Konfiguration Deaktiviert von folder-a an.
  • Für project-b ist die Herkunftserfassung deaktiviert. Knowledge Catalog beginnt mit der Auswertung von project-b und wendet die deaktivierte-Konfiguration an. Dadurch werden die Einstellungen für folder-b und test-org überschrieben.

Wenn Sie die Generierung von Herkunftsdaten steuern, können Sie Kosten und Governance-Richtlinien besser verwalten. Sie können beispielsweise die Erfassung von Lineage-Informationen für Entwicklungsprojekte oder Arbeitslasten mit hohem Volumen deaktivieren, für die kein Lineage-Tracking erforderlich ist.

Informationen zum Konfigurieren und Steuern der Lineage-Erfassung finden Sie unter Lineage-Erfassung für einen Dienst steuern.

Regionsübergreifende Datenherkunft

Die Datenherkunft ist ein von Natur aus regionalisierter Dienst. Herkunftsmetadaten, einschließlich Links, Prozessen und Ereignissen, werden sicher aufgezeichnet und an dem geografischen Standort isoliert, an dem die zugrunde liegende Datentransformation oder Asset-Änderung erfolgt.

Da moderne Unternehmensdatenarchitekturen skaliert werden, überschreiten Pipeline-Workflows häufig Projekt- und regionale Grenzen. Beispielsweise kann eine BigQuery-Transformationspipeline, die in us-central1 ausgeführt wird, eine Quelltabelle in us-east1 lesen und aggregierte Messwerte in einen Cloud Storage-Bucket in europe-west1 ausgeben.

Um einen umfassenden End-to-End-Überblick über den Lebenszyklus Ihrer Daten in diesen unabhängigen geografischen Einheiten zu erhalten, verwenden Sie eine multiregionale Methode zur Suche nach dem Datenursprung.

Weitere Informationen finden Sie unter Mehrregionale Herkunftssuche.

Beschränkungen

Für die Datenherkunft gelten die folgenden Einschränkungen:

  • Alle Informationen zur Herkunft werden nur 30 Tage lang im System aufbewahrt.

  • Lineage-Informationen bleiben erhalten, nachdem Sie die zugehörige Datenquelle gelöscht haben. Wenn Sie beispielsweise eine BigQuery-Tabelle löschen, können Sie ihre Lineage über die API und die Console bis zu 30 Tage lang aufrufen.

  • Bei der Datenherkunft werden keine direkten Herkunftsinformationen für BigQuery-Routinen automatisch aufgezeichnet. Wenn eine Routine in einer Abfrage verwendet wird, werden in den Datengrafikaufzeichnungen Abhängigkeiten zwischen den Tabellen, aus denen die Routine Daten liest, und den Tabellen, in die die Abfrage Daten schreibt, erfasst.

Einschränkungen der Herkunft auf Spaltenebene

Für den Spaltenursprung gelten die folgenden zusätzlichen Einschränkungen:

  • Die Herkunft auf Spaltenebene wird nicht für BigQuery-Ladejobs oder für Routinen erfasst.

  • Die Upstream-Lineage auf Spaltenebene wird für externe Tabellen nicht erfasst.

  • Die Herkunft auf Spaltenebene wird nicht erfasst,wenn in einem Job mehr als 1.500 Links auf Spaltenebene erstellt werden. In diesen Fällen wird nur die Lineage auf Tabellenebene erfasst.

  • Die Unterstützung von CLL ist auf Spalten der obersten Ebene in BigQuery-Tabellen beschränkt. Verschachtelte Felder in komplexen Typen wie STRUCT oder JSON werden nicht unterstützt.

  • Die Suchfunktion mit dem Feldparameter funktioniert nur für Links, in denen Spalte-zu-Spalte-Beziehungen explizit definiert sind. Es werden keine Ergebnisse zurückgegeben oder Links durchlaufen, die nur auf Tabellenebene definiert sind. Es gibt keine Unterstützung für die Suche zwischen Links auf Tabellen- und Spaltenebene (z.B. alle Spalten finden, die mit einem Link auf Tabellenebene verknüpft sind, oder umgekehrt). Die API gibt nur Links zurück, bei denen sowohl für die Quelle als auch für das Ziel ein Feld angegeben ist.

  • Die Unterstützung für partitionierte Tabellen ist eingeschränkt, da Partitionierungsspalten wie _PARTITIONDATE und _PARTITIONTIME im Herkunftsgraphen nicht erkannt werden.

  • Einschränkungen der Konsole:

    • Die Durchlaufung des Herkunftsgraphen ist auf eine Tiefe von 20 Ebenen und 10.000 Links in jeder Richtung beschränkt.

Preise

  • Knowledge Catalog verwendet die Premium-Verarbeitungs-SKU, um die Datenherkunft abzurechnen. Weitere Informationen finden Sie unter Preise.

  • Wenn Sie die Gebühren für die Datenherkunft von anderen Gebühren in der SKU für die Premium-Verarbeitung von Knowledge Catalog trennen möchten, verwenden Sie im Cloud-Abrechnungsbericht das Label goog-dataplex-workload-type mit dem Wert LINEAGE.

  • Wenn Sie die Data Lineage API Origin sourceType mit einem anderen Wert als CUSTOM aufrufen, fallen zusätzliche Kosten an.

Nächste Schritte