In diesem Dokument wird erläutert, wie Sie OpenLineage in Knowledge Catalog (ehemals Dataplex Universal Catalog) einbinden, um Herkunftsdaten aus verschiedenen Systemen zu visualisieren.
Übersicht
OpenLineage ist eine offene Plattform zum Erfassen und Analysieren von Datenherkunftsinformationen. OpenLineage verwendet einen offenen Standard für Herkunftsdaten und erfasst Herkunftsereignisse aus Datenpipeline-Komponenten, die eine OpenLineage API verwenden, um über Ausführungen, Jobs und Datasets zu berichten.
Über die Data Lineage API können Sie OpenLineage-Ereignisse importieren, die in der Knowledge Catalog-Weboberfläche neben Herkunftsinformationen aus Google Cloud Diensten wie BigQuery, Managed Service for Apache Airflow, Cloud Data Fusion und Managed Service for Apache Spark angezeigt werden.
Wenn Sie OpenLineage-Ereignisse importieren möchten, die die
OpenLineage-Spezifikation verwenden, verwenden Sie die
ProcessOpenLineageRunEvent
REST API-Methode und ordnen Sie OpenLineage-Facetten Data Lineage API-Attributen zu.
Beschränkungen
Die Data Lineage API unterstützt OpenLineage-Hauptversion 1.
Der Data Lineage API-Endpunkt
ProcessOpenLineageRunEventfungiert nur als Consumer von OpenLineage-Nachrichten, nicht als Producer. Mit der API können Sie Herkunftsinformationen, die von einem beliebigen OpenLineage-kompatiblen Tool oder System generiert wurden, an Knowledge Catalog senden. Einige Google Cloud Dienste wie Managed Service for Apache Spark und Managed Airflow enthalten integrierte OpenLineage-Producer, die Ereignisse an diesen Endpunkt senden können, wodurch die Erfassung der Herkunft aus diesen Diensten automatisiert wird.Die Data Lineage API unterstützt Folgendes nicht:
- Alle nachfolgenden OpenLineage-Versionen mit Änderungen am Nachrichtenformat
DatasetEventJobEvent
Die maximale Größe einer einzelnen Nachricht beträgt 5 MB.
Die Länge jedes vollständig qualifizierten Namens in Ein- und Ausgaben ist auf 4.000 Zeichen begrenzt.
Links werden nach Ereignissen gruppiert, mit maximal 100 Links pro Ereignis. Die maximale Gesamtzahl der Links auf Tabellenebene beträgt 1.000. Wenn eine Nachricht mehr als 1.500 Links auf Spaltenebene enthält, werden die Informationen auf Spaltenebene übersprungen.
Knowledge Catalog zeigt für jede Jobausführung ein Herkunftsdiagramm mit den Ein- und Ausgaben von Herkunftsereignissen an. Prozesse auf niedrigerer Ebene wie Spark-Phasen werden nicht unterstützt.
OpenLineage-Zuordnung
Informationen zur OpenLineage-Zuordnung finden Sie unter OpenLineage-Zuordnung.
OpenLineage-Ereignis importieren
Wenn Sie OpenLineage noch nicht eingerichtet haben, lesen Sie den Artikel Erste Schritte.
Wenn Sie ein OpenLineage-Ereignis in Knowledge Catalog importieren möchten, rufen Sie die API-Methode
ProcessOpenLineageRunEvent auf.
C#
C#
Folgen Sie der C# Einrichtungsanleitung in der Knowledge Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken, bevor Sie dieses Beispiel anwenden. Weitere Informationen finden Sie in der Referenzdokumentation zur Knowledge Catalog C# API.
Richten Sie zur Authentifizierung bei Knowledge Catalog die Standardanmeldedaten für Anwendungen (ADC) ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Go
Go
Bevor Sie dieses Beispiel anwenden, folgen Sie der Go Einrichtungsanleitung in der Knowledge Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Knowledge Catalog Go API.
Richten Sie zur Authentifizierung bei Knowledge Catalog die Standardanmeldedaten für Anwendungen (ADC) ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Java
Folgen Sie der Java Einrichtungsanleitung in der Knowledge Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken, bevor Sie dieses Beispiel anwenden. Weitere Informationen finden Sie in der Referenzdokumentation zur Knowledge Catalog Java API.
Richten Sie zur Authentifizierung bei Knowledge Catalog die Standardanmeldedaten für Anwendungen (ADC) ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Python
Folgen Sie der Python Einrichtungsanleitung in der Knowledge Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken, bevor Sie dieses Beispiel anwenden. Weitere Informationen finden Sie in der Referenzdokumentation zur Knowledge Catalog Python API.
Richten Sie zur Authentifizierung bei Knowledge Catalog die Standardanmeldedaten für Anwendungen (ADC) ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Ruby
Ruby
Folgen Sie der Ruby Einrichtungsanleitung in der Knowledge Catalog-Kurzanleitung zur Verwendung von Clientbibliotheken, bevor Sie dieses Beispiel anwenden. Weitere Informationen finden Sie in der Referenzdokumentation zur Knowledge Catalog Ruby API .
Richten Sie zur Authentifizierung bei Knowledge Catalog die Standardanmeldedaten für Anwendungen (ADC) ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
REST
Verwenden Sie die
processOpenLineageRunEvent Methode, um ein OpenLineage-Ereignis zu importieren.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
PROJECT_ID: Ihre Google Cloud Projekt-ID.LOCATION_ID: den Google Cloud Standort, z. B.us-central1.
HTTP-Methode und URL:
POST https://datalineage.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID:processOpenLineageRunEvent
JSON-Text anfordern:
{
"eventTime": "2023-04-04T13:21:16.098Z",
"eventType": "COMPLETE",
"inputs": [
{
"name": "somename",
"namespace": "customnamespace"
}
],
"job": {
"name": "somename",
"namespace": "customnamespace"
},
"outputs": [
{
"name": "somename",
"namespace": "customnamespace"
}
],
"producer": "someproducer",
"run": {
"runId": "somerunid"
},
"schemaURL": "https://openlineage.io/spec/1-0-5/OpenLineage.json#/$defs/RunEvent"
}
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{
"process": "projects/my-project/locations/us-central1/processes/my-process",
"run": "projects/my-project/locations/us-central1/processes/my-process/runs/my-run",
"lineageEvents": [
"projects/my-project/locations/us-central1/processes/my-process/runs/my-run/lineageEvents/my-lineage-event"
]
}
Tools zum Senden von OpenLineage-Nachrichten
Um das Senden von Ereignissen an die Data Lineage API zu vereinfachen, können Sie verschiedene Tools und Bibliotheken verwenden:
- Google Cloud Java Producer Library:Google bietet eine Open-Source-Java-Bibliothek, mit der Sie OpenLineage-Ereignisse erstellen und an die Data Lineage API senden können. Weitere Informationen finden Sie im Blogpost Producer java library for Data Lineage is now open source. Die Bibliothek ist auf GitHub und Mavenverfügbar.
- OpenLineage GCP Transport: Für Java-basierte OpenLineage-Producer ist ein
spezieller
GcpLineage Transport
verfügbar. Er vereinfacht die Einbindung in die Data Lineage API, da weniger Code zum Senden von Ereignissen an die Data Lineage API erforderlich ist. Der
GcpLineageTransportkann als Ereignissenke für jeden vorhandenen OpenLineage-Producer wie Airflow, Spark und Flink konfiguriert werden. Weitere Informationen und Beispiele finden Sie unter GcpLineage.
Informationen aus OpenLineage analysieren
Informationen zum Analysieren der importierten OpenLineage-Ereignisse finden Sie unter Herkunftsdiagramme in der Knowledge Catalog-UI ansehen.
Gespeicherte Daten
Die Data Lineage API speichert nicht alle Facettendaten aus den OpenLineage-Nachrichten. Die Data Lineage API speichert die folgenden Facettenfelder:
spark_versionopenlineage-spark-versionspark-version
- alle
spark.logicalPlan.* environment-properties(custom Google Cloud lineage-Facette)origin.sourcetypeundorigin.namespark.app.idspark.app.namespark.batch.idspark.batch.uuidspark.cluster.namespark.cluster.regionspark.job.idspark.job.uuidspark.project.idspark.query.node.namespark.session.idspark.session.uuid
Die Data Lineage API speichert die folgenden Informationen:
eventTimerun.runIdjob.namespacejob.name
Nächste Schritte
- Weitere Informationen zur Datenherkunft mit Managed Service for Apache Spark und Hive-Datenherkunft integrationen.
- Interaktives Lab ausprobieren: Capture and Explore Data Updates With Data Lineage and OpenLineage