Als “Big Data” werden Datenbestände bezeichnet, die so umfangreich, komplex und schnell wachsend sind, dass man ihnen mit herkömmlichen Methoden nicht mehr beikommen kann. Somit braucht man spezialiserte Technologien um die Daten auswerten, analysieren und verarbeiten zu können.
Je nach Umfeld werden neue Daten in unterschiedlichen Mengen, Geschindigkeiten und Fomaten nonstop neu generiert. Diese Daten beinhalten mit der Zeit das gesamte - elektronisch erfasste - historische Lexikon einer Unternehmung, welches mit analytischen Methoden verfügbar - und somit nutzbar - gemacht werden kann.
Entgegen dem Begriff geht es bei Big Data nicht nur um die Menge der Daten, sondern ebenso stark um die Qualitiät und was sie damit machen. Daten die man nicht nachhaltig und in einer auswertbaren Form sammelt und speichert werden mit der Zeit nutzlos.
Grundsätzlich wird unterschieden zwischen
Im Ersten geht es um die im Tagesgeschöft anfallenden Daten, bspw Bestellungen eines Online Shops, Sensorüberwachungen in Produktionsbetriebe, Hotelbuchungen eines Webportals oder sonstige Datentransaktionen die tagtäglich in jeder Unternehmung anfallen.
Die Sammlung dieser Daten aus dem Tagesgeschöft ermöglicht dann mit der Zeit analytische Rückschlüsse, bspw. über das zu erwartende Kundenverhalten bei zukünftigen Aktionen. Bei entsprechdenen Datenmengen können beispielweise Kundengruppen aufgrund Ihrer Einkaufhistorie kategorisert werden um damit Absatzprognosen über neu lancierte Produkte zu berechnen.
Auch wenn sie für sich in Ihrer Unternehmung heute noch keine praktischen Mutzen von Big Data Analytics sehen, kann es doch nicht falsch sein, die in den verschiedenen Organisationeinheiten anfallenden Datenbestände schon mal vorausschauend in deinem Data Lake zu sammeln. Unhänging vom heutigen analytischen Bedürfnissen, sollte man dies in einer langfristigen Data Strategie bereits heute so festlegen. Der Grund dahinter ist ganz simpel: In Zukunft analysieren kann man nur das was man heute schon aufbewahrt.
Ein DataLake unterscheidet sich von einem Datawarehouse insofern, als dass der DataLake nicht eine strukturierte Form hat und nicht auf bestimmte Analysen oder Abfragen hin optimiert wurde. Der Datalake soll Originaldaten (wen sinnvoll in Originalformaten) aus allen möglichen Datenquellen für eine mögliche zukünftige Verwendung und Analyse sammeln.
Kommen Sie auf uns zu wenn sie Anmerkungen haben, mit uns fachsimpeln möchten oder einfach Lust auf einen guten Kaffee haben.
Kommen Sie auf uns zu wenn sie Anmerkungen haben, mit uns fachsimpeln möchten oder einfach Lust auf einen guten Kaffee haben.