Was ist eine Data Pipeline?

Ihre Ansprechsperson

Nino Müller

Nino Müller

+41 (0) 31 382 51 12
n.mueller@substring.ch

Der effiziente Datenfluss von einem System zum anderen - zum Beispiel von einer SaaS-Anwendung zu einem Data Warehouse (DWH) - ist einer der wichtigsten Prozesse in den heutigen datengesteuerten Unternehmen. Schliesslich kann eine sinnvolle Datenanalyse erst dann beginnen, wenn die Daten digital verfügbar sind. Der Datenfluss kann sehr heikel sein, da beim Transport von einem System zum anderen so viele Dinge schief gehen können: Daten können zum Beispiel beschädigt werden, sie können auf Engpässe stossen (was zu Latenzzeiten führt), oder Datenquellen können in Konflikt geraten und/oder Dubletten erzeugen. Wenn die Komplexität der Anforderungen wächst und die Anzahl der Datenquellen vervielfacht wird, nehmen Umfang und Auswirkungen dieser Probleme zu.

Die Data Pipeline

Eine Data Pipeline ist im eigentlichen Sinne eine Software, die viele manuelle Schritte zu einem Prozess zusammenführt und den Datenfluss automatisch sicherstellt - von einer Station zur nächsten. Dabei wird zunächst definiert welche Daten, wo und wie gesammelt werden. Zur Klärung dieser Fragen eines Daten-Projekts haben wir den Data Canvas erstellt, der diesen Punkt unterstützt. Die Data Pipeline automatisiert die Prozessschritte wie Extraktion, Transformierung, Matching, Validierung und Laden von Daten für zusätzliche Analysen und Visualisierungen. Damit können Fehler und Flaschenhälse im Durchsatz schnell eliminiert werden. Zudem arbeitet eine Data Pipeline parallel mit vielen Data Streams, was zu Effizienzgewinnen führt.

Ein Vorteil von Data Pipelines ist, dass es Daten als Daten Streams anschaut und deshalb flexible Schemas erlaubt. Es spielt keine Rolle ob die Daten von einer statischen Quelle (wie z.B. eine Flat-File Datenbank) oder von einer Echtzeitquelle (wie z.B. Transaktionen einer e-Business-Lösungen) stammen. Die Data Pipeline ist darauf ausgelegt all diese Quellen parallel zu bearbeiten und in ein weiteres System zu übertragen. Das Zielsystem muss dabei nicht unbedingt ein Data Warehouse sein, sondern kann einfach ein weiteres System sein, wie beispielsweise SAP oder Salesforce.

Kurzgesagt, eine Data Pipeline ist essenziell für Unternehmen, die datenbasiert arbeiten wollen.

Unterschied zwischen ETL und Data Pipeline?

Die Begriffe ETL und Data Pipeline werden sehr oft synonym verwendet. ETL steht dabei für Extrahieren, Transformieren und Laden. Wir haben für viele unserer Kundenprojekte solche Lösungen implementiert. ETL-Systeme extrahieren Daten aus einem System, transformieren die Daten und laden die Daten in eine Datenbank oder ein Data Warehouse. Die ursprüngliche Definition von ETL definiert eigentlich Prozesse, die in der Regel in Batches - also in einem grossen Stück zu einem bestimmten Zeitpunkt, in das Zielsystem verschoben werden. Typischerweise geschieht dies in regelmäßigen geplanten Intervallen, wie beispielsweise einmal pro Stunde.

Im Gegensatz dazu sind Data Pipelines ein weiter gefasster Begriff, von der ETL eine Teilmenge davon darstellt. Daten werden von A nach B transportiert und dabei transformiert oder eben auch nicht. Das ganze kann in Echtzeit passieren oder in geplanten Intervallen, wie bei ETL. Daten werden in Pipelines auch nicht nur von einem System in mehrere Systeme geladen, sondern können auch von allen Systemen in alle Systeme einen Datenfluss aufbauen. So können beispielsweise auch WebHooks eingebaut werden um SaaS Produkte in die Pipeline miteinzubeziehen.

Wie starte ich?

Sie sind überzeugt, dass eine Data Pipeline genau das Richtige für Sie ist? Substring - The Data Company ist die führende IT Unternehmung im Bereich Daten & Analysen in der Region. Wir beraten Sie gerne über die ersten Schritte zu einer effizienten Data Pipeline.

Zurück