blog_Hero.jpg
Veröffentlicht von       Daniel Brühlmeier

Data Lineage – warum transparente Datenströme wichtig sind

Der Begriff der Data Lineage – gelegentlich auch als Data Provenance oder Data Pedigree bezeichnet, im Deutschen meist als Datenherkunft übersetzt – ist aktuell in aller Munde. Was sich genau dahinter verbirgt und warum das Thema so wichtig ist, möchten wir im folgenden Text besprechen.


Backward, Forward, End-to-End…

Vor einigen Jahren ging es beim Thema Datenherkunft vor allem darum, die Beziehungen innerhalb eines Systems zu beschreiben, insb. die Beziehungen zwischen den einzelnen Datentabellen.


Die Analyse der Datenbeziehungen innerhalb eines Systems bzw. BI-Tools ist auch heute noch relevant und wird unter dem Begriff Inner-System Lineage geführt. So kann man bspw. in einem Data Warehouse die Datenherkunft auf Spaltenebene nachvollziehen und die Logik von Ansichten & Dashboards erkunden.

 

Daneben gewinnt die End-to-End Lineage bzw. Cross-System-Lineage immer mehr an Bedeutung, also die Analyse system- und anwendungsübergreifender Datenströme. Sie ermöglicht den Blick auf den kompletten Datenfluss, von der Datenquelle über diverse BI-Tools bis hin zum Geschäftsbericht.

 

Zudem kann auch anhand der „Blickrichtung“ unterschieden werden: Backward Data Lineage schaut vom Datenprodukt “stromaufwärts” auf die Quelle der darin verwendeten Daten; Forward Data Lineage schaut von der Datenquelle aus stromaufwärts entlang der verschiedenen Transformationsprozesse zum Datenprodukt.

Klassische Geschäftssituationen, die zeigen, warum Data Lineage so wichtig ist

Data Lineage ist wichtig – nicht nur für Data Engineers, sondern auch für Data Scientists & Analysten, jegliche Datenkonsumenten in Unternehmensführung & Fachbereichen und nicht zuletzt auch für die Rechtsabteilung grosser Unternehmen.

 

13 % Rückgang im letzten Monat? Wenn das stimmt, dann müssten wir ja…
Wer datenbasiert argumentieren & entscheiden soll, braucht Daten, denen man vertrauen kann – und dieses Vertrauen wird durch transparente Data Lineage gestärkt! Zum einen kann jeder Geschäftsanwender durch den Blick „stromaufwärts“ jederzeit prüfen, woher die Zahlen des täglich genutzten Dashboards stammen. Doch auch der Blick „stromabwärts“ kann Vertrauen schaffen, bspw. wenn man über die Suchfunktion im BI-Tool nach bestimmten Infos recherchiert und eine Auswertung findet, die auch in den Quartalsbericht für den Filialchef einfliesst – diese Daten dürften sorgfältig geprüft und verlässlich sein.

 

Mit meinem Dashboard stimmt was nicht, warum fehlen da plötzlich die Quartalswerte?
Auch bei etablierten Datenprodukten gibt es manchmal Qualitätsprobleme – mal fehlen Daten, mal zeigen verschiedene Reports konfligierende Werte für ein und dieselbe. Hier kann das Datenteam anhand der kartierten Datenbeziehungen schnell & gezielt auf Problemsuche gehen: Wurde „stromaufwärts“ eine Tabelle verändert? Oder handelt es sich um ein temporäres Problem in den Pipelines, Feature-Generation Tools, Streams & anderen operativen Komponenten des komplexen Data Stack? Auch bei ungewöhnlichen Daten wie einem abrupten Einbruch der Website-Nutzer gilt es zunächst der Datenstrom zu prüfen, bevor man beim Management Alarm schlägt!

 

Kann ich dieses Feld ändern oder zerschiesse ich damit irgendeinen Report? Und welche Dashboards müssen wir updaten, wenn wir diese Tabelle optimieren?
Data Engineers können anhand der Data Lineage prüfen, wie sich die Aktualisierung von Datenprodukten „stromabwärts“ auswirkt. So lassen sich die obig erwähnten Datenbrüche & Qualitätsprobleme vermeiden, stattdessen kann man gemeinsam mit den Ownern der betroffenen Datenprodukte eine Lösung findet.
 Diese Spalte wird von 56 anderen Tabellen genutzt – und da soll ich jetzt überall die Definition hinschreiben?
Data Lineage unterstützt die Propagierung von Metadaten durch das gesamte Data Warehouse, indem identische Datenpunkte identifiziert werden. So genügt es, die Definitionen an der Quelle einzufügen – diese kann dann automatisch „stromabwärts“ übernommen werden, sofern keine relevanten Transformationen durchgeführt werden. Eine enorme Erleichterung für das Data Governance-Team!

 

Klar, Datenschutz ist wichtig – aber wer kann schon prüfen, ob wirklich niemand unberechtigten Zugriff auf irgendwelche Personendaten hat!
Eigentlich ist dies ein weiterer Anwendungsfall für die Propagierung von Metadaten: Data Lineage erleichtert die Markierung schützenswerter Personendaten & das Management der entsprechenden Zugriffsrechte. Oft finden sich Schwachstellen in den Rollenkonzepten – bspw. eine Zugriffsberechtigung auf eine Tabelle, aus der sich sensible Daten rekonstruieren lassen, während der Zugriff auf die zugehörigen Parent-/Child-Tabellen korrekterweise beschränkt ist.

 

Welche Datenressourcen müssen wir bei der anstehenden Cloud-Migration unbedingt mitnehmen? Was können wir löschen, um Kosten zu sparen?
Migrationsprojekte sind für jedes Unternehmen eine Mammutaufgabe – Data Lineage unterstützt die anstehenden Architekturentscheidungen durch den Blick aus der Vogelperspektive, hilft die wichtigsten Ressourcen zu identifizieren und begründet Prioritäten zu setzen. Oft geben solche Projekte auch den Anstoss zur längst überfälligen Datenbereinigung – und auch hier ist das Wissen um die systeminternen wie systemübergreifenden Datenbeziehungen im Unternehmen Gold wert!

 

Zusammenfassend gesagt unterstützt & erleichtert Data Lineage:

 

  1. Troubleshooting bei Problemen mit der Datenqualität
  2. Impact Analysis bei der Aktualisierung von Datenprodukten
  3. Datenerkundung & Vertrauen in die Daten aufseiten der Entscheider
  4. verbesserte Governance durch Propagierung von Metadaten
  5. verbesserter Datenschutz & Compliance durch PII Mapping
  6. Migrations- & Datenbereinigungsprojekte

Data Lineage als Teilaspekt der Data Observability

Aus Sicht des Datenteams steht die Frage der Data Lineage stets im breiteren Kontext der Data Observability, also der Beobachtbarkeit der Daten.

 

Um Datenausfallzeiten bestmöglich zu vermeiden, gilt es, die Datengesundheit stets im Blick zu haben und aktiv zu managen. Data Lineage ist hier einer von fünf wichtigen Aspekten:

 

  • Aktualität / freshness – wann wurden die Daten zuletzt aktualisiert, gibt es ggf. zeitliche Lücken, in denen keine Aktualisierung stattfand?
  • Verteilung / distribution – zeigt das Datenset eine normale Verteilung auf Feldebene, bspw. der Nullwerte? In addition to null values, other measurements of a distribution change include abnormal representation of expected values in a data asset.
  • Menge / volume – sind alle Tabellen vorhanden, liegt die Zahl der Datensätze im üblichen Rahmen?
  • Schema / schema – ist die Datenstruktur intakt oder wurden Tabellen und/oder Felder hinzugefügt, gelöscht oder nicht ordnungsgemäss geladen?
  • Herkunft / lineage – ist der Datenfluss intakt oder gab es Brüche – und wenn ja, wo?


Kurz gesagt: Um Datenausfallzeiten bestmöglich zu vermeiden, gilt es, die Datengesundheit stets im Blick zu haben und aktiv zu managen. Dabei ist die Data Lineage – neben Aktualität, Verteilung auf Feldebene, Datenmenge, Schema bzw. Datenstruktur – einer von fünf wichtigen Aspekten.

>> Download Qlik Lineage Connectors Datasheet (E)

 

Daniel Brühlmeier

Daniel Brühlmeier

Daniel Brühlmeier ist ein Informatik Ingenieur mit einer Weiterbildung in Data Science. Dank seinem technischen Detailwissen und seiner geschätzten Gabe, genügend Flughöhe zu halten, ist er ein Garant für erfolgreiche Data Projekte.

VERWANDTE BEITRAGE