Die Abkürzung ETL steht für Extraktion (Extract), Transformation (Transform) und Laden (Load) und ist ein Datentransformationsprozess, bei dem Daten aus mehreren Datenquellen in einer Zieldatenbank vereinigt werden.
Von Daten aus verschiedenen Datenquellen wie SAP, Datenbanken, XML-Dateien, Dokumenten oder API-Schnittstellen. Dabei können auch nur Teilaspekte der Quelldaten extrahiert werden.
Die Frequenz der Extraktion kann sich hier pro Datenquelle massiv unterscheiden. Man unterscheidet typischerweise anhand von
periodisch
Die Datenquelle erzeugt in regelmässigen Abständen neue Daten, wie zum Beispiel wöchentliche, tägliche oder stündliche Daten.
ereignisgesteuert
Die Datenquelle erzeugt bei einem bestimmten Ereignis einen neuen Auszug von Daten. Dies kann zum Beispiel ein abgeschlossener Wartungsprozess des Umsystems sein.
anfragegesteuert
Die Datenquelle wird vom eigenen System aktiv angefragt und bietet dann einen Zugriff auf aktuelle Daten. Dies erfolgt normalerweise durch eine Interaktion des Users.
Der Daten in das Schema und Format der Zieldatenbank indem diverse Transformationen z.B. von Datumsfeldern durchgeführt werden. In diesem Schritt können auch Duplikate entfernt, Datensätze verknüpft und Bereinigungen durchgeführt werden.
Die aufbereiteten und bereinigten Daten können in die Zieldatenbank geladen werden.
Der Name ETL und der dazugehörige Prozess wurde vor allem im Kontext von Data-Warehouses eingeführt. Grundsätzlich kann aber überall wo Datenmengen aus mehreren operationalen Datenbanken konsolidiert werden und anschliessend in eine weitere Datenbank überführt werden, von ETL gesprochen werden.
Substring hat seit dem Jahr 2000 viele Firmen in der Einführung von digitalen Datenverarbeitungsprozessen unterstützt. ETL ist ein wichtiger Bestandteil jeder Business Unit, die ihre Prozesse digitalisiert und in einem Umfeld mit vielen digitalen Schnittstellen arbeitet.