Kategorie

Kontakt

Nino Grossrieder

Supervised vs. Unsupervised Learning

Supervised und Unsupervised Learning sind zwei grundlegende Ansätze im Machine Learning – dem Teilgebiet der künstlichen Intelligenz, bei dem Systeme aus Daten lernen. Der Unterschied liegt darin, wie das Modell trainiert wird: mit oder ohne «richtige Antworten».

In diesem Artikel erklären wir beide Ansätze, zeigen den Unterschied in einer Vergleichstabelle und illustrieren anhand konkreter Projekte aus Industrie und Verkehr, wann welcher Ansatz zum Einsatz kommt.

Was ist Supervised Learning?

Beim Supervised Learning (überwachtes Lernen) wird ein Modell mit gelabelten Daten trainiert. Das bedeutet: Für jeden Datenpunkt kennt das Modell die korrekte Antwort – das sogenannte Label. Es lernt, den Zusammenhang zwischen Eingabedaten und Label zu erkennen, und kann dieses Wissen anschliessend auf neue, unbekannte Daten anwenden.

So funktioniert es in der Praxis:

Ein Industrieunternehmen will defekte Bauteile automatisch erkennen. Dazu werden tausende Bilder von Bauteilen gesammelt und von Experten als «defekt» oder «intakt» markiert. Das Modell lernt anhand dieser gelabelten Bilder, Defekte selbstständig zu erkennen – auch auf Bildern, die es noch nie gesehen hat.

Typische Supervised-Learning-Verfahren

Klassifikation – Das Modell ordnet Datenpunkte einer von mehreren Kategorien zu. Beispiele: Ist dieses Bauteil defekt oder intakt? Handelt es sich bei dieser Servicemeldung um einen Garantiefall oder nicht? Ist dieser Text Hate Speech oder nicht?

Regression – Das Modell sagt einen numerischen Wert vorher. Beispiele: Wie lange läuft diese Maschine noch, bevor sie ausfällt? Wie hoch wird der Energieverbrauch nächste Woche sein?

Supervised Learning in unseren Projekten

Dieser Ansatz ist in der Praxis der häufigste, weil er besonders gut funktioniert, wenn genügend gelabelte Daten vorhanden sind. Hier sind Projekte, in denen wir Supervised Learning eingesetzt haben:

Defekterkennung auf Bildern – In unserem Computer-Vision-Use-Case haben wir ein Modell trainiert, das auf Produktionsbildern automatisch fehlerhafte Teile erkennt. Das Modell wurde mit gelabelten Bildern (defekt/intakt) trainiert – klassisches Supervised Learning.

Schadenserkennung in Tunnels – Für Amberg Technologies haben wir ein Deep-Learning-Modell entwickelt, das Schäden in Tunnelwänden auf Bildern identifiziert. Auch hier: Experten labeln die Trainingsbilder, das Modell lernt die Muster.

Predictive Maintenance bei der Post – Bei den Sortieranlagen der Schweizerischen Post analysiert ein Modell Sensordaten, um vorherzusagen, wann eine Komponente ausfallen wird. Die historischen Daten (Sensorwerte + tatsächliche Ausfallzeitpunkte) dienen als Labels.

Prozessoptimierung bei Geberit – Bei der datengetriebenen Prozessoptimierung für Geberit haben wir historische Prüfdaten analysiert, um Muster in der Qualitätsprüfung zu erkennen und den Prüfprozess zu optimieren.

Schienenkopfkonditionierung bei BERNMOBIL – Im Projekt zur KI-gestützten Schienenkopfkonditionierung lernt ein Modell anhand historischer Mess- und Wartungsdaten, wann und wo geschmiert werden muss.

Was ist Unsupervised Learning?

Beim Unsupervised Learning (unüberwachtes Lernen) gibt es keine Labels. Das Modell erhält nur die Rohdaten und muss selbst Muster, Gruppen oder Auffälligkeiten erkennen. Es gibt keine «richtige Antwort» – das Modell entdeckt Strukturen, die dem Menschen möglicherweise verborgen geblieben wären.

So funktioniert es in der Praxis:

Ein Verkehrsunternehmen hat Millionen von Fahrten dokumentiert, weiss aber nicht, welche Betriebsmuster es gibt. Ein Unsupervised-Learning-Algorithmus gruppiert die Fahrten automatisch nach ähnlichen Merkmalen (Strecke, Uhrzeit, Verspätung, Auslastung) – und entdeckt so Cluster, die vorher niemand definiert hatte.

Typische Unsupervised-Learning-Verfahren

Clustering – Das Modell gruppiert Datenpunkte nach Ähnlichkeit, ohne dass vordefinierte Kategorien existieren. Beispiele: Welche Maschinentypen verhalten sich ähnlich? Gibt es Kundengruppen mit vergleichbarem Nutzungsverhalten?

Anomalieerkennung – Das Modell lernt, was «normal» aussieht, und markiert Abweichungen. Beispiele: Ein Sensor zeigt ein ungewöhnliches Vibrationsmuster. Ein Energieverbrauch liegt plötzlich ausserhalb des erwarteten Bereichs. Besonders wertvoll in der Schadenserkennung mittels Akustiksignalen, wo Modelle lernen, welche Geräusche «normal» sind und bei Abweichungen Alarm schlagen.

Dimensionsreduktion – Das Modell reduziert die Anzahl der Variablen, um komplexe Datensätze überschaubarer zu machen. Nützlich, wenn Sensoren hunderte Kanäle liefern und man die wichtigsten Einflussfaktoren identifizieren will.

Wo kommt Unsupervised Learning zum Einsatz?

Unsupervised Learning ist besonders wertvoll, wenn gelabelte Daten fehlen oder wenn man noch gar nicht weiss, wonach man sucht:

Explorative Datenanalyse – Am Anfang eines Data-Science-Projekts, wenn man die Datenlandschaft erst verstehen will.
Anomalieerkennung im Betrieb – Wenn es unmöglich ist, alle denkbaren Fehlerfälle vorab zu labeln. Stattdessen lernt das Modell den Normalzustand und meldet Abweichungen.
Segmentierung – Wenn man grosse Datenbestände in sinnvolle Gruppen einteilen will, ohne die Gruppen vorher zu kennen.

Supervised vs. Unsupervised Learning – der direkte Vergleich

Kriterium	Supervised Learning	Unsupervised Learning
Trainingsdaten	Gelabelt (mit korrekten Antworten)	Ungelabelt (nur Rohdaten)
Ziel	Vorhersage oder Klassifikation	Muster und Strukturen entdecken
Typische Verfahren	Klassifikation, Regression	Clustering, Anomalieerkennung, Dimensionsreduktion
Wann einsetzen?	Wenn Labels verfügbar sind und klare Vorhersagen nötig	Wenn keine Labels existieren oder explorative Analyse gewünscht
Aufwand	Hoch für Labeling, danach effizient	Weniger Vorbereitung, aber Interpretation aufwändiger
Output	Konkrete Vorhersage (Klasse, Wert)	Gruppen, Ausreisser, Strukturen
Beispiel Industrie	«Ist dieses Teil defekt?»	«Welche Maschinengruppen verhalten sich ähnlich?»
Beispiel Verkehr	«Wann fällt dieses Bauteil aus?»	«Gibt es unbekannte Störungsmuster im Netz?»

Und was ist Semi-Supervised Learning?

In der Praxis existiert oft eine Mischform: Es gibt eine kleine Menge gelabelter Daten und eine grosse Menge ungelabelter Daten. Semi-Supervised Learning nutzt beides – das Modell lernt zunächst aus den wenigen Labels und verfeinert sein Verständnis mithilfe der ungelabelten Daten.

Dieser Ansatz ist besonders relevant für Industrieunternehmen, bei denen das Labeln aufwändig ist. Einen Experten bitten, tausende Bilder zu markieren, ist teuer und zeitintensiv. Semi-Supervised Learning kann den Labeling-Aufwand drastisch reduzieren.

Eng verwandt ist Reinforcement Learning (bestärkendes Lernen), bei dem ein Modell durch Versuch und Irrtum lernt und für gute Ergebnisse «belohnt» wird – ähnlich wie ein Roboter, der durch Ausprobieren lernt, Objekte zu greifen.

Welcher Ansatz passt zu Ihrem Problem?

Die Wahl zwischen Supervised und Unsupervised Learning hängt von zwei Fragen ab:

1. Haben Sie gelabelte Daten?

Wenn ja – oder wenn Labels mit vertretbarem Aufwand erstellt werden können – ist Supervised Learning fast immer die bessere Wahl. Die Ergebnisse sind präziser und einfacher zu interpretieren.

Wenn nein – weil es entweder zu teuer wäre, Labels zu erstellen, oder weil Sie noch gar nicht wissen, welche Kategorien relevant sind – starten Sie mit Unsupervised Learning.

2. Wissen Sie, was Sie suchen?

Wenn Sie eine konkrete Frage haben («Ist dieses Teil defekt?», «Wann fällt diese Maschine aus?»), brauchen Sie Supervised Learning.

Wenn Sie erst verstehen wollen, welche Muster in Ihren Daten stecken, ist Unsupervised Learning der richtige Einstieg.

In der Praxis werden beide Ansätze häufig kombiniert: Erst Unsupervised Learning, um die Daten zu explorieren und sinnvolle Cluster zu finden. Dann Supervised Learning, um auf Basis dieser Erkenntnisse ein präzises Vorhersagemodell zu bauen.

Datenschutz und verteilte Daten: Federated Learning

Ein spezieller Aspekt beim Training von ML-Modellen ist der Datenschutz. Was tun, wenn Daten aus regulatorischen oder organisatorischen Gründen nicht an einem zentralen Ort zusammengeführt werden dürfen?

Hier kommt Federated Learning ins Spiel: Das Modell wird dezentral trainiert – die Daten bleiben dort, wo sie entstehen, und nur die Modellupdates werden geteilt. Dieser Ansatz ist für Schweizer Unternehmen besonders relevant, die strenge Datenschutzanforderungen erfüllen müssen.

Wie wir Sie unterstützen

Unser AI-Team begleitet Unternehmen aus Industrie & Logistik und öffentlichem Verkehr von der ersten Datenexploration bis zum produktiven ML-Modell. Ob Computer Vision, Predictive Maintenance, NLP oder Anomalieerkennung – wir wählen den richtigen Ansatz basierend auf Ihren Daten und Ihrer Fragestellung.

Typischerweise starten wir mit einem Workshop, in dem wir gemeinsam die verfügbaren Daten sichten und bewerten, ob Supervised oder Unsupervised Learning (oder eine Kombination) am besten passt. Wenn Sie unsicher sind, wo Ihre Organisation steht, hilft unsere Datenmaturitätsanalyse als erste Standortbestimmung.

Haben Sie eine konkrete Fragestellung, bei der Machine Learning helfen könnte? Kontaktieren Sie uns – wir finden den richtigen Ansatz.

Weiterführende Glossar-Einträge

Was ist künstliche Intelligenz? – Der Überblick über KI, ML und Deep Learning
Federated Learning – ML-Training ohne zentrale Datenhaltung
Data Science für Unternehmen – Warum Datenanalyse strategisch wichtig ist
Defekte Teile auf Bildern erkennen – Supervised Learning in der Praxis
Hate Speech Detection – NLP-Klassifikation als Supervised-Learning-Beispiel
Optische Deformationserkennung – Computer Vision im ÖV
Schadenserkennung mittels Akustiksignalen – Anomalieerkennung im Betrieb
Big Data – Wenn die Datenmenge wächst
Data Governance – Datenqualität als Grundlage für gute Modelle

‍