Kategorie

Kontakt

Nino Müller

Was ist ein Data Catalogue?

Ihre Organisation hat Dutzende Datenquellen – Data Warehouses, Data Lakes, ERP-Systeme, CRM, Excel-Dateien, APIs. Aber niemand weiss genau, welche Daten wo liegen, wer sie pflegt und ob sie vertrauenswürdig sind. Das Resultat: Dieselben Fragen werden immer wieder gestellt, Analysen dauern Wochen statt Stunden, und Entscheide basieren auf Bauchgefühl statt auf Daten. Ein Data Catalogue löst genau dieses Problem.

Was ist ein Data Catalogue?

Ein Data Catalogue (Datenkatalog) ist ein zentrales Verzeichnis aller Datenbestände einer Organisation. Er dokumentiert nicht die Daten selbst, sondern die Metadaten: Was bedeutet ein Datensatz? Wo liegt er? Wer ist verantwortlich? Wie aktuell ist er? Welche Qualität hat er?

Stellen Sie sich den Data Catalogue als Bibliothekskatalog vor: Er sagt Ihnen, welche Bücher (Daten) es gibt, wo sie stehen, worum es geht und ob sie aktuell sind – ohne dass Sie jedes Buch einzeln durchblättern müssen.

Ein moderner Data Catalogue geht dabei weit über eine statische Tabelle hinaus. Er bietet Suchfunktionen, automatische Metadaten-Erfassung, Lineage-Tracking (woher kommen die Daten, wohin fliessen sie?) und Zugriffskontrollen.

Warum braucht Ihre Organisation einen Data Catalogue?

Ohne Datenkatalog passiert in den meisten Organisationen Folgendes:

Daten-Suchzeit frisst Kapazität: Data Scientists und Analyst:innen verbringen bis zu 30 % ihrer Arbeitszeit damit, die richtigen Daten zu finden und zu verstehen – statt sie zu analysieren.
Doppelspurigkeiten: Verschiedene Abteilungen bauen parallele Datenbestände auf, weil sie nicht wissen, dass die Daten bereits existieren.
Vertrauensproblem: Ohne dokumentierte Herkunft und Qualität traut niemand den Daten – und fällt zurück auf Excel und Bauchgefühl.
Compliance-Risiko: Ohne Überblick über personenbezogene Daten ist die Einhaltung von DSG und DSGVO kaum sicherzustellen.
Onboarding-Bremse: Neue Teammitglieder brauchen Wochen, um die Datenlandschaft zu verstehen, weil das Wissen in Köpfen statt in Systemen steckt.

Ein Data Catalogue adressiert all diese Probleme und ist damit eine Grundvoraussetzung für funktionierende Data Governance.

Data Catalogue vs. Datenlandkarte

Der Data Catalogue wird oft mit der Datenlandkarte verwechselt. Beide Werkzeuge ergänzen sich, haben aber unterschiedliche Schwerpunkte:

Datenlandkarte: Eine strategische Übersicht über die Datenlandschaft einer Organisation. Sie zeigt, welche Datenbestände existieren, wie sie zusammenhängen und wo Handlungsbedarf besteht. Typischerweise das Ergebnis einer einmaligen Analyse oder einer Datenmaturitätsanalyse.
Data Catalogue: Ein operatives, lebendes System, das Metadaten kontinuierlich pflegt und allen Nutzer:innen zur Verfügung stellt. Er wird laufend aktualisiert und ist in die tägliche Arbeit integriert.

In der Praxis startet man oft mit einer Datenlandkarte, um den Ist-Zustand zu verstehen, und überführt die Ergebnisse dann in einen Data Catalogue für den laufenden Betrieb.

Was gehört in einen Data Catalogue?

Ein vollständiger Datenkatalog dokumentiert für jeden Datenbestand:

Technische Metadaten

Speicherort (welche Datenbank, welches Schema, welche Tabelle)
Datenformat und -typ (SQL, Parquet, CSV, API-Endpunkt)
Update-Frequenz und letzte Aktualisierung
Data-Pipeline-Zugehörigkeit (welche Pipeline befüllt diesen Datensatz?)
Data Lineage (woher kommen die Daten, welche Transformationen durchlaufen sie?)

Fachliche Metadaten

Business-Definition: Was bedeutet dieses Feld in Geschäftssprache?
Verantwortliche Person oder Team (Data Owner / Data Steward)
Verwendungszweck und bekannte Konsumenten
Datenqualitäts-Indikatoren (Vollständigkeit, Aktualität, Konsistenz)

Governance-Metadaten

Klassifizierung (öffentlich, intern, vertraulich, personenbezogen)
Zugriffsrechte und -beschränkungen
Aufbewahrungsfristen und Löschregeln
Compliance-Relevanz (DSG, DSGVO, branchenspezifische Vorgaben)

Wie baut man einen Data Catalogue auf?

Die Einführung eines Datenkatalogs ist kein reines Tool-Projekt – es ist ein organisatorischer Wandel. Ein pragmatischer Ansatz in vier Schritten:

1. Scope definieren

Nicht alles auf einmal katalogisieren. Starten Sie mit den Datenbeständen, die den grössten Schmerz verursachen: die meistgenutzten Reports, das zentrale Data Warehouse, die kritischen Geschäftsprozesse. Eine vorgelagerte Datenlandkarte hilft bei der Priorisierung.

2. Tooling wählen

Moderne Data-Catalogue-Tools (z. B. Microsoft Purview, Atlan, DataHub, Collibra) bieten automatische Metadaten-Erfassung aus Datenbanken, Data Lakes und BI-Tools. Bei Unternehmen im Microsoft-Fabric-Stack ist Purview oft die natürliche Wahl, da es nativ in Azure und Fabric integriert ist.

3. Ownership klären

Jeder Datensatz braucht eine:n verantwortliche:n Data Owner. Ohne klare Ownership verwahrlost der Katalog innerhalb weniger Monate. Dies ist ein zentraler Baustein einer funktionierenden Data-Governance-Struktur.

4. Adoption sicherstellen

Ein Datenkatalog ist nur so wertvoll, wie er genutzt wird. Binden Sie ihn in den Arbeitsalltag ein: als erste Anlaufstelle für neue Analysen, als Pflichtschritt beim Onboarding, als Referenz in Power-BI-Reports. Machen Sie den Katalog zum Reflex, nicht zur Pflichtübung.

Data Catalogue in der Praxis: Typische Szenarien

Industrieunternehmen mit Datensilos

Ein produzierendes Unternehmen hat Daten in ERP, MES, Sensorsystemen und diversen Excel-Dateien. Niemand weiss genau, welche Produktionskennzahlen wo berechnet werden. Der Data Catalogue schafft Transparenz: Welche Daten fliessen aus dem Shopfloor ins Warehouse? Welche KPIs basieren auf welchen Rohdaten? Wer pflegt was?

Öffentliche Verwaltung mit Compliance-Anforderungen

Eine Kantonsverwaltung muss für das neue DSG dokumentieren, wo personenbezogene Daten gespeichert werden. Ohne Datenkatalog ein mühsames, manuelles Unterfangen. Mit Datenkatalog: eine filterbare Übersicht aller Datenbestände mit Klassifizierung und Verantwortlichkeiten. Unsere Projekte bei der Stadt Luzern und PUBLICA zeigen, wie dieser Weg in der Praxis aussieht.

Wachsendes Data Team

Ein Unternehmen mit einem skalierenden Data Team braucht den Datenkatalog, damit neue Teammitglieder sich schnell zurechtfinden. Statt wochenlangem Wissenstransfer von Kolleg:innen ist der Katalog die zentrale Dokumentation der Datenlandschaft.

Data Catalogue und Datenplattform

Ein Data Catalogue entfaltet seinen vollen Wert erst im Zusammenspiel mit einer modernen Datenplattform. In einer gut aufgebauten Architektur ist der Katalog kein Add-on, sondern integraler Bestandteil:

Data Pipelines registrieren ihre Outputs automatisch im Katalog
dbt-Modelle generieren Dokumentation und Lineage, die direkt in den Katalog fliessen
Power-BI-Reports verlinken auf Katalog-Einträge, damit Nutzer:innen die Herkunft der Zahlen nachvollziehen können
Governance-Policies werden im Katalog hinterlegt und automatisch durchgesetzt

Häufige Fehler bei der Einführung

Zu viel auf einmal: Wer versucht, die gesamte Datenlandschaft in einem Wurf zu katalogisieren, scheitert an der Komplexität. Besser: klein starten, iterativ erweitern.
Nur technische Metadaten: Ein Katalog, der nur Tabellennamen und Datentypen enthält, wird von Fachbereichen ignoriert. Business-Kontext ist entscheidend.
Kein Ownership-Modell: Ohne klare Verantwortlichkeiten veralten die Einträge schnell und der Katalog verliert seine Glaubwürdigkeit.
Tool vor Strategie: Erst die Datenstrategie klären, dann das Tool wählen – nicht umgekehrt.

Wie Substring bei der Einführung unterstützt

Die Einführung eines Data Catalogues ist Teil unserer Data-Consulting-Dienstleistungen. Typischerweise begleiten wir Organisationen in drei Phasen:

Assessment: Datenlandkarte und Datenmaturitätsanalyse als Ausgangsbasis – damit wir wissen, was katalogisiert werden muss und wo der grösste Hebel liegt.
Aufbau: Tool-Evaluation, initiale Befüllung, Definition des Governance-Modells (Rollen, Prozesse, Qualitätsregeln) und Integration in die bestehende Datenplattform.
Adoption: Schulung der Nutzer:innen, Einbettung in bestehende Workflows, laufende Begleitung bis der Katalog zum Selbstläufer wird.

Unsere Erfahrungen aus Projekten wie der Datenlandkarte für die DEZA, dem Data Maturity Assessment für PUBLICA und der Datenstrategie der Stadt Luzern fliessen direkt in die Katalog-Einführung ein.

Nächste Schritte

Sie möchten wissen, ob ein Data Catalogue für Ihre Organisation der richtige nächste Schritt ist? Oft ist eine Datenlandkarte der ideale Startpunkt, um Klarheit über die bestehende Datenlandschaft zu schaffen.

Jetzt Erstgespräch vereinbaren

Kategorie

Kontakt

Was ist ein Data Catalogue?

Was ist ein Data Catalogue?

Warum braucht Ihre Organisation einen Data Catalogue?

Data Catalogue vs. Datenlandkarte

Was gehört in einen Data Catalogue?

Technische Metadaten

Fachliche Metadaten

Governance-Metadaten

Wie baut man einen Data Catalogue auf?

1. Scope definieren

2. Tooling wählen

3. Ownership klären

4. Adoption sicherstellen

Data Catalogue in der Praxis: Typische Szenarien

Industrieunternehmen mit Datensilos

Öffentliche Verwaltung mit Compliance-Anforderungen

Wachsendes Data Team

Data Catalogue und Datenplattform

Häufige Fehler bei der Einführung

Wie Substring bei der Einführung unterstützt

Nächste Schritte

kontakt