Ein Data Lake ist ein zentraler Speicherort für Ihre gesamten Unternehmensdaten und unterstützt Sie bei künftigen Unternehmensentscheidungen. Der grosse Unterschied zu einem Data Warehouse ist, dass die Daten in einem Data Lake im Rohdatenformat abgespeichert werden. Das heisst es findet oftmals keine oder kaum eine Transformation der Daten statt. Zudem werden Daten nicht nur aus strukturierten Datenquellen in den Data Lake eingespiessen, sondern auch aus unstrukturierten Daten, wie beispielsweise Texten. Grundsätzlich ist ein Data Lake ein flexibler Ort, der mit fast allen Daten aus allen Typen etwas anfangen kann, sei es direkt über Schnittstellen oder aus Datenformaten wie CSV, JSON, Text und Email.
Zur Analyse lassen sich in einem Data Lake anschliessend auch generische Analysemethoden definieren, welche auf die Daten angewendet werden können. Durch diese Ausgangslage, benötigt ein Data Lake oftmals auch wesentlich mehr Speicherplatz als ein Data Warehouse. Dadurch werden beispielsweise unstrukturierte Daten in strukturierte Daten umgewandelt und werden einfacher zugänglich für Data Science, SQL Analysen oder künstliche Intelligenz.
Die zugrundliegende Data Lake Architektur besteht dabei aus zwei Komponenten, dem Speicher und der Verarbeitung.
Bekannte Data Lake Systeme sind beispielsweise AWS Data Lake (S3), Azure Data Lake Storage oder Hadoop.
Planen Sie einen Data Lake in Ihrem Unternehmen einzurichten oder suchen Sie einen Partner für Systemanbindungen oder Data Science? Zögern Sie nicht uns zu kontaktieren.