Algorithmen Analytics Methoden – von deskriptiven Analysen bis Machine-Learning-Algorithmen
Anbieter zum Thema
Dem Datenanalysten stehen zahlreiche Methoden zur Verfügung. Der folgende Artikel erläutert einige davon – von statistischen, deskriptiven Methoden bis zu Supervised und Unsupervised Machine Learning.

Das Handwerkszeug eines Datenanalysten sind die Methoden, die er zur Aufbereitung und Analyse der Daten verwendet, die Tools, mit deren Hilfe er Methoden auf die Daten anwendet, sowie Datenbanktechnologien, über die der Analyst seine Daten bezieht und in denen er Ergebnisse ablegt. Dieser Artikel gibt einen groben Überblick über eine Auswahl von Methoden.
Statistische, deskriptive Analyse: Von Histogrammen bis Quantilen
Deskriptive Analysen sind ein grundlegendes Mittel für Analysten, um sich mit neuen Daten vertraut zu machen und ein Verständnis für die Modelbildung zu entwickeln. Die Analysemethoden haben ihren Ursprung in der deskriptiven Statistik, die entsprechende strukturierte Werkzeuge bereitstellt. Die Analysen werden auf der Ebene einzelner Attribute, also „Spalten“ von Werten gleicher Art wie zum Beispiel „Alter“ oder „Geschlecht“ bei Personendaten durchgeführt. Im Folgenden werden einige deskriptive Maße und Methoden beschrieben:
Häufigkeitsverteilungen und Histogramme
Ein einfaches Mittel, sich einen Überblick über die Werte eines Attributs zu verschaffen, sind Häufigkeitsverteilungen bzw. deren grafische Darstellung als Histogramme. Bei diskreten Attributen mit einer bestimmten Anzahl Ausprägungen (z. B. Klassen oder Kategorien) werden die Häufigkeiten pro Ausprägung gezählt und als Balken dargestellt. Bei kontinuierlich verteilten Ausprägungen werden die Werte in Intervalle gleicher Größe (sogenannte „Bins“) aufgeteilt und dann gezählt. So entsteht eine Übersicht, die den Ausprägungen Häufigkeiten zuweist.
Was sind Lage- und Streuungsmaße?
Lage- und Streuungsmaße sind wichtige Kennzahlen, um die Verteilung der Werte eines Attributs zu verstehen. Im folgenden wird kurz auf die Streuungsmaße Varianz und Standartabweichung eingegangen.
Die Varianz ist definiert als das Mittel aller quadrierten Abweichungen der Werte vom arithmetischen Mittelwert. Das bedeutet, dass die Abweichungen aller Attributwerte berechnet und quadriert werden und die Summe aller quadrierten Abweichungen dann durch die Anzahl der Attributwerte geteilt wird. Das Quadrieren der Abweichungen ist notwendig, da die Varianz auch für negative Abweichungen berechnet werden soll, ohne dass sich diese mit positiven Abweichungen gegenseitig aufheben.
Große Varianzen lassen auf eine starke Streuung schließen. Das bedeutet, dass die Attributwerte im Wertebereich stark verteilt sind. Der individuelle Wert der Varianz ist dabei nicht so einfach interpretierbar. Das liegt daran, dass die quadrierten Werte nicht dem betrachteten Wertebereich entsprechen und sich damit nur im Vergleich mit anderen Varianzen im gleichen Wertbereich messen lassen können. Es empfiehlt sich daher, die Standardabweichung als deskriptive Kennzahl für die Streuung zu verwenden.
Die Standardabweichung berechnet sich als Quadratwurzel der Varianz. Ihr Vorteil gegenüber der Varianz liegt darin, dass ihr Wert die gleiche Einheit wie die betrachteten Attributwerte besitzt und im gleichen Wertebereich liegt. Dies erhöht die Interpretierbarkeit enorm.
Was sind Quartile, Whiskers und Boxplots?
Die beschriebenen Lage- und Streuungsmaße bieten punktuelle Informationen zu den Daten eines Attributs. Eine Möglichkeit, tieferen Einblick in die Daten zu bekommen, sind Boxplots (auch Box-Whisker-Plots oder Kastengrafiken genannt). Um sie interpretieren zu können, müssen zwei weitere Kennzahlen eingeführt werden: Quartile und Whiskers.
Quantile und Quartile: Quantile unterteilen Werteverteilungen in Bereiche. Ähnlich wie der Median, der das Quantil Q0,5 darstellt, lassen sich je nach Anwendung andere Aufteilungen erstellen. So beschreibt zum Beispiel das Quantil Q0,1 den Wert, der die Verteilung in die unteren 10% und die oberen 90% aller Werte unterteilt.
Whiskers: Whiskers – manchmal im Deutschen auch als „Antennen“ bezeichnet – zeigen, welche Werte aufgrund ihrer hohen Distanz zum Median höchstwahrscheinlich Ausreißer darstellen. Je nach Darstellung werden die Werte der Antennen unterschiedlich berechnet. Eine Möglichkeit ist es, sie als die beiden Quantile Q0,025 und Q0,975 darzustellen und damit die oberen und unteren 2,5% der Werte zu beschreiben.
Boxplot: Im Boxplot werden die beschriebenen Kennzahlen zusammengefasst und dargestellt. Das nebenstehende Bild zeigt einen solchen Boxplot für Beispieldaten. Der Kasten in der Mitte beschreibt den Bereich zwischen unterem und oberem Quartil. Der breite Strich in der Mitte markiert den Median, die beiden anderen Striche ober- und unterhalb die Whiskers, die über den Interquartilsabstand berechnet wurden. Die Punkte ober- und unterhalb der Whiskers zeigen Ausreißer.
Die Darstellungsform, mehrere Boxplots nebeneinander aufzuzeigen, eignet sich für Attribute, die die gleiche Einheit und einen ähnlichen Wertebereich besitzen, oder für Werte eines Attributs, die zum Beispiel zeitlich gruppiert wurden. Im Beispiel werden die Längen (len) und Breiten (wid) von Kelch- (Sepal) und Blütenblättern (Petal) beschrieben. Sie haben die gleiche Maßeinheit und befinden sich in einem ähnlichen Wertebereich. Dadurch ergibt sich eine übersichtliche Darstellung. Im Bild ist gut erkennbar, dass die Werte für die übrigen drei Attribute innerhalb der Whiskers bleiben, während bei der Weite von Kelchblättern einige Ausreißer ober- und unterhalb der Whiskers auftreten.
Was sind Streuungsdiagramme und -matrizen?
Während die beschriebenen Maße sich immer nur auf die Verteilung der Werte eines Attributs beziehen, sind gerade auch die Abhängigkeiten der Attribute untereinander interessant. Streuungsdiagramme und -matrizen bieten eine gute Möglichkeit, die Abhängigkeiten zwischen je zwei Attributen zu betrachten.
Das Bild zeigt eine Streuungsmatrix. In jedem der Felder der Matrix werden die Werte von je zwei Attributen auf der x- und der y-Achse gegenübergestellt. Welche das sind, lässt sich an den Beschriftungen an den Seiten links und unterhalb der Felder erkennen. Die Attributnamen werden an den Seiten jeweils in der gleichen Reihenfolge von oben nach unten bzw. von links nach rechts angetragen. Dadurch enthalten die Felder in der Diagonalen von links oben nach rechts unten auf x- und y-Achse die gleichen Attributwerte. Das Feld links unten stellt hingegen die Werte der Attribute „sepal_len“ und „petal_wid“ gegenüber. Durch die Darstellung sind mögliche Korrelationen gut auszumachen. Außerdem lassen sich Cluster, also lokale Häufigungen von Wertepaaren, erahnen.
Was ist Kovarianz und Korrelation?
Zusammenhänge, die über Streuungsmatrizen visuell ausmachbar sind, können über Korrelationskoeffizienten formalisiert werden. Daher sind Korrelationsmatrizen wohl eine der beliebtesten deskriptiven Methoden zur Darstellung linearer Zusammenhänge zwischen den Attributen eines Datensatzes.
Die Korrelation bzw. der Korrelationskoeffizient, der für zwei Attribute berechnet wird, ist die zwischen –1 und 1 standardisierte Version der Kovarianz. Die Kovarianz wiederum beschreibt den linearen Zusammenhang zwischen zwei Variablen bzw. hier Attributen, also ob und wie Attribute gemeinsam variieren.
Für beide Maßzahlen gilt, dass hohe positive Werte auf eine hohe gemeinsame Kovarianz bzw. Korrelation schließen lassen, während hohe negative Werte ein Zeichen für eine gegensätzliche bzw. negative Kovarianz / Korrelation (ein Wert steigt, während der andere fällt) sind. Je mehr sich der Wert 0 nähert, desto geringer ist der Zusammenhang. Ein Beispiel für gegensätzliche korrelierende Attribute könnten zum Beispiel Alter und Geburtsjahr sein: je höher das Alter, desto geringer der Wert für das Geburtsjahr.
Supervised Learning: Regressionen erklärt
Überwachte Lernalgorithmen sind die wohl wichtigste und bekannteste Art von Machine-Learning-Algorithmen, mit denen Datenanalysten arbeiten. Sie ermöglichen Zuordnungen zu Kategorien und Vorhersagen und sind Bestandteile der meisten Systeme, die automatisiert Daten analysieren und darauf aufbauend Entscheidungen unterstützen oder sogar selbst herbeiführen. Im Folgenden werden Regressionen und Entscheidungsbäume näher betrachtet. Weitere Vertreter für überwachte Lernalgorithmen sowie Formeln und Vertiefungen findet man in dem Fachbuch „Data Analytics“, dem dieser Beitrag entnommen wurde.
Definition: Was sind Regressionen?
Regressionen dienen dazu, quantitative Zusammenhänge zwischen den kontinuierlich verteilten Werten eines Zielattributs (abhängige Variable, Regressand) und denen von Attributen (unabhängige Variable, Regressor) zu modellieren. Dazu wird eine Funktion aufgebaut, in der Werte des Regressanden auf der einen Seite über die Regressoren auf der anderen Seite berechnet oder zumindest angenähert werden können.
Die Bezeichnung „Regression“ bedeutet so viel wie Rückschluss. Ziel der Regressionsmethodik ist es also, auf Basis von Trainingsdaten für Regressand und Regressoren auf eine möglichst akkurate Funktion rückzuschließen, welche die Zusammenhänge zwischen der abhängigen und den unabhängigen Variablen beschreibt. Im Gegensatz zur Klassifikation ist das Ziel dabei nicht, Beobachtungen einer Klasse zuzuordnen, sondern aus den beobachteten Werten (z.B. Sensormessungen) wiederum einen Wert zu berechnen. Da die ermittelte Funktion und damit die Berechnung der Funktions- bzw. Zielwerte transparent ist, handelt es sich bei der Methode um ein White-Box-Modell.
Wie Entscheidungsbäume funktionieren
Entscheidungsbäume gehören wohl zu den am weitesten verbreiteten und intuitivsten überwachten Lernalgorithmen. Aufgrund ihrer Einfachheit und der Möglichkeit, Regeln direkt aus den Bäumen abzulesen, werden sie vor allem auch für initiale Analysen und zum Aufbau eines besseren Datenverständnisses verwendet. Ziel des Ansatzes ist es – wie auch bei anderen überwachten Klassifikationsalgorithmen –, die Daten mithilfe der Attribute in Klassen zu unterteilen, so dass bei neuen Daten, die kein Label enthalten, Vorhersagen getroffen werden können.
Entscheidungsbäume tun dies, indem sie die Trainingsmenge anhand von Werten und Wertebereichen von Attributen entlang einer Baumstruktur in immer kleinere Teilmengen unterteilen, denen dann mit steigender Sicherheit Klassen zugewiesen werden können. Die Wege von der Wurzel über die Verzweigungen anhand der Attribute (Äste) bis hin zu den Blättern, den kleinsten Untergruppen, denen am Ende Klassen zugewiesen werden, bilden eine Abfragestruktur, anhand der neue Daten klassifiziert werden können. Diese Strategie wird grundsätzlich auch als Teile-und-herrsche-Strategie bezeichnet, da der Datensatz in immer kleinere Teile aufgeteilt wird, die einzeln genommen einfacher verarbeit- und beschreibbar sind.
Die Aufteilung der Daten in Untergruppen erfolgt anhand der Attribute im Datensatz. Die Attributwerte werden dabei so getrennt, dass sie die Unterteilung der Daten (auch Split genannt) in die Klassen bestmöglich unterstützen. Die Beziehung zwischen einer Datenmenge und den Untermengen wird als Elter-Kind-Beziehung bezeichnet. Jeder Baum verzweigt sich so lange, bis zum Beispiel eine vordefinierte maximale Tiefe oder minimale Menge an Beobachtungen pro Split erreicht ist.
Unsupervised Learning: k-Means-Algorithmus erklärt
Unüberwachte Lernalgorithmen arbeiten auf Daten, die keine Labels oder Zielvariablen aufweisen bzw. diese absichtlich außer Acht lassen. Sie versuchen zum Beispiel Gruppierungen auf Basis von Mustern zu ermöglichen, ohne aus den Trainingsdaten erkennen zu können, ob diese Einteilungen sinnvoll oder korrekt sind. Die wohl bekannteste unüberwachte Lernmethode ist der k-Means-Clustering-Algorithmus, mit dem vor allem kontinuierlich verteilte Beobachtungen in eine vordefinierte Anzahl k Gruppen bzw. Cluster eingeteilt werden.
So funktioniert der k-Means-Algorithmus
Der k-Means-Algorithmus ist wohl eine der bekanntesten Methoden zum Formen solcher Datengruppen. Er wurde bereits in den 1950er-Jahren von Hugo Steinhaus entwickelt, aber erst seit den 1980er-Jahren publiziert und eingesetzt. Seitdem fehlt er in keinem Analytics- und Machine-Learning-Kurs. Typische Anwendungsfälle für den k-Means-Algorithmus sind die Segmentierung von Kunden, also die Einteilung von Kunden in Kundengruppen, oder auch die Gruppierung geografischer Daten anhand deren Nähe zueinander. Der Vorteil des Algorithmus liegt in seiner Einfachheit und damit guten Nachvollziehbarkeit (White Box).
Folgend wird die grundlegende Vorgehensweise des Algorithmus erklärt. Dabei kann man sich jeden Datensatz am besten als einen Punkt in einem Raum vorstellen, dessen Lage durch die Werte seiner Attribute bestimmt wird. Sie besteht aus einer Initialisierungsphase und den beiden Schritten „Zuweisung“ und „Aktualisierung“, die mehrfach durchlaufen werden:
- 1. Initialisierung: Für die Anzahl Cluster k, die unterschieden werden sollen, erstellt der Algorithmus Clusterzentren als künstlich generierte Punkte mit den gleichen Attributen wie die betrachteten Datensätze. Die Werte der Attribute werden zufällig gewählt.
- 2. Zuweisung: Für jeden Punkt werden die Entfernungen zu allen Clusterzentren berechnet. Der Punkt wird dann dem Cluster zugewiesen, dessen Zentrum am nächsten liegt. Beim k-Means-Algorithmus wird diese Entfernung über das euklidische Distanzmaß bestimmt.
- 3. Aktualisierung: Nachdem allen Punkte Clusterzentren zugewiesen wurden, erhält jedes Cluster ein neues Clusterzentrum indem der Mittelpunkt aller Punkte, die dem Cluster zugeordnet sind, bestimmt wird.
Die letzten beiden Schritte werden so lange wiederholt, bis entweder eine vordefinierte Anzahl an Iterationen durchlaufen wurde oder keine Veränderungen der Clusterzuweisungen mehr auftreten. Letzteres Kriterium muss nicht immer eintreten. Daher sollte auf jeden Fall eine feste Anzahl Iterationen gewählt werden, so dass der Algorithmus sicher zu einem Ergebnis kommt.
Dadurch, dass sich die Lage der Clusterzentren vor allem zu Beginn stark ändert, kann sich auch die Zuordnung der Punkte zu Clustern ändern. Einzelne Beobachtungen in Randbereichen können so das zugewiesene Cluster mehrfach wechseln. Um zu vermeiden, dass die zufällig initialisierten Clusterzentren einen Einfluss auf das Ergebnis haben, führen viele Tools den Algorithmus auf den Daten mehrfach aus. Je nachdem, wo die Zentren liegen bzw. wie viele Iterationen durchgeführt werden, kann es sein, dass die Ergebnisse abweichen. Durch eine wiederholte Ausführung kann dies überprüft und das am häufigsten vorkommende Ergebnis verwendet werden.
* Dr. Johannes Kröckel, Data Scientist, leitet seit Mitte 2018 die Abteilung „Data Science & AI“ im Bereich Digitalisierung bei Schaeffler.
(ID:47149469)