Weak Supervision: Künstliche Intelligenz ohne Kinderkrankheiten



Maschinelles Lernen (ML) gilt als Schlüsseltechnologie zur Neu- und Weiterentwicklung von Produkten, Prozessen und Dienstleistungen. Auch wenn die Aufgabenstellungen sehr unterschiedlich sind, ist die Vorgehensweise oft die gleiche.

Die meisten unter uns dürften schon mindestens einmal – vermutlich jedoch schon viel öfter - mit maschinellem Lernen (ML) in Kontakt gekommen sein. Sprachassistenten wie Alex und Siri, sowie Chatbots oder Empfehlungen auf Online Shopping Plattformen wären ohne undenkbar. Doch auch bei der der Analyse und Optimierung von Unternehmensprozessen spielt ML seine Stärken aus.

Wie funktioniert maschinelles Lernen?

Allgemein handelt es sich bei ML um Algorithmen, die Daten analysieren, aus diesen Analysen lernen und das Gelernte in weiterer Folge anwenden. Damit ML funktioniert und ein Muster erlernen kann, muss es von einem Menschen trainiert werden. Dieser Lernprozess beginnt mit einem vorbereiteten Trainingsdatensatz, der von dem Algorithmus nach Mustern und Zusammenhängen durchsucht wird.

Nach einem erfolgreich abgeschlossenen Lernprozess wird das trainierte Modell dazu genutzt, unbekannte Daten zu bewerten. Somit können anhand dieser Vorhersagen bessere Entscheidungen getroffen werden. Das Hauptziel ist es ohne menschliche Eingriffe zu lernen und die Aktionen entsprechend anzupassen. Die Entwicklung eines Modells ist ein interaktiver Prozess, der oft mehrfach durchlaufen wird, bis das Ergebnis eine gewisse Qualität (Akkurranz) erreicht hat.

Zur Analyse und Erkennung von Daten und deren Beziehungen zueinander, umfasst maschinelles Lernen mehrere Methoden. Alle diese Verfahren haben das Ziel basierend auf Erfahrungen, eine Umgebung mit ihren Elementen und deren Beziehungen zueinander zu erkennen. Zu den bekanntesten Verfahren gehört das Modell der künstlichen neuronalen Netze (Deep Learning), die die Struktur des menschlichen Gehirns simulieren.

Mit neuronalen Netzen lassen sich Inhalte aus verschiedenen Datenquellen wie Bilder, Videos, Texte oder Tabellen interpretieren und Informationen sowie Muster extrahieren, um diese auf unbekannte Daten anzuwenden. Dies wird häufig genutzt, um datengetriebene Vorhersagen für die Zukunft zu erstellen.

Je größer die Datenmenge, desto besser

Ein Trainingsdatensatz ist ein Datensatz mit Beispielen, die für das Lernen der Muster und Zusammenhänge in den Daten verwendet wird. Diese Abhängigkeit von riesigen Trainingsdatensätzen ist der größte Haken im Zusammenhang mit maschinellen Lernalgorithmen. So ist die Beschaffung von Trainingsdaten meist extrem aufwendig und kostenintensiv, da diese Daten oft erst manuell erstellt werden müssen (bspw. manuelles Labeling von Bildern). Aus diesem Grund dauert es manchmal Monate oder Jahre, um diese zusammenzustellen, zu bereinigen und zu debuggen - vor allem, wenn Fachwissen erforderlich ist.

Hinzu kommt, dass sich Aufgaben in der realen Welt oft verändern und weiterentwickeln. Daher rückt „Weak Supervision“ (schwache Überwachung) als Methode des Deep Learning zunehmend in den Fokus.

Die Weak Supervision Methode

Ground-Truth-Annotationen stellen die Grundlage des Wissens, das zum Trainieren eines KI-Systems verwendet wird, dar. Sie geben vor was erlernt werden soll – beispielsweise welcher Teil eines Satzes stellt eine Person, eine Organisation, ein Datum dar - und wie eine Entscheidung getroffen werden soll.

Ein hervorragendes Beispiel hierfür ist ein Spam-Filter. Dieser wird vorab mit sämtlichen Daten gefüttert, um eine Entscheidung treffen zu können bei welchen E-Mails es sich um Spam handelt und bei welchen nicht. Gibt es Probleme, resultieren diese aus der Ground Truth und der Art und Weise wie er trainiert wurde.

Im Gegensatz dazu bezieht sich die schwache Überwachung (Weak Supervision) nicht auf eine Ground Truth. Stattdessen werden Modelle für maschinelles Lernen mittels probabilistic training labels (übersetzt: probabilistische Trainingsetiketten) erzeugt. 

Die Erstellung von probabilistic training labels erfolgt auf Basis von Vermutungen bzw. Schätzungen. Vereinfacht gesagt geht es dabei darum zu schätzen wieviel Rauschen bzw. nutzlose Informationen einzelne Datensätze aufweisen. Diese können dann systematisch ausgeblendet und bei der Mustererkennung bzw. zur Automatisierung von Prozessen außen vor gelassen werden. Damit verschwindet die manuelle Eingabe und Klassifizierung, und die Implementierungszeit der KI reduziert sich enorm.

Die kontinuierlichen Fortschritte der KI

KI ist aus unserem heutigen Leben längst nicht mehr wegzudenken und zählt mitunter zu den aussichtsreichsten und vielversprechendsten Technologien der Zukunft. Aufgrund ihrer Effizienz wird sie bereits in zahlreichen unterschiedlichen Bereichen eingesetzt. Auch in sensibleren Bereichen, wie dem Straßenverkehr, wird KI in Form von Assistenzsystemen in Autos eingesetzt. Im Kredit- und Bankenwesen dienen sie der Entdeckung von Betrugsfällen oder der Bestimmung der Kreditwürdigkeit. Selbst in der Medizin wird KI heute nicht mehr nur für administrative Aufgaben eingesetzt, sondern insbesondere auch, um Krankheiten zu erkennen und zu diagnostizieren. Wurde die KI anfänglich noch durch die Vorbereitungs- und Trainingszeiten des Systems gebremst, lassen sich heute mit neuen Formen des Deep-Learnings in einem Bruchteil der Zeit genauere Ergebnisse erzielen.


Mindbreeze nutzt KI, um Geschäftsprozesse zu optimieren und Mitarbeitern einen 360-Grad-Blick auf ihr Unternehmenswissen zu ermöglichen. Wie können wir Ihnen helfen? Kontaktieren Sie unsere Experten noch heute.

Zuletzt erschienen

Embracing the Future: Mindbreeze’s Top 4 AI Trends for 2025

Jonathan Manousaridis

2025 is set to be transformative for AI, with advancements poised to revolutionize how organizations operate, collaborate, and innovate.

Mindbreeze at the AI Summit NYC: Key Highlights

Jonathan Manousaridis

This year’s AI Summit NYC provided an incredible platform to showcase Mindbreeze’s cutting-edge solutions, connect with industry leaders, and discuss the tran