Sieben Schritte der Datenanalyse

Was sind die wesentlichen Schritte der Datenanalyse?

Ich habe Daten! Sozusagen den Rohstoff, das "binäre Gold" Ihrer noch zu destillierenden Erkenntnisse haben Sie also im Sack bzw. auf der Festplatte (oder Cloud). Gut! Was jetzt?

 

Dieser Artikel zeigt Ihnen die wesentlichen Schritte, also den Ablauf, einer typischen Datenanalyse. Wir bleiben aber beim Überblick, um einen Überblick zu bekommen :)

 

Es lassen sich sieben Schritte abgrenzen:

 

 

1) Einlesen

 

Zuerst brauchen Sie Ihre Daten in einem Format, das Sie gut bearbeiten können. Sind Ihre Daten in mehreren Excel-Sheets verstreut? Verheiraten Sie die Dateien - am einfachsten ist es, wenn Sie eine "platte, rechtwinklige" Datentabelle erstellen können. Jede Spalte eine Variable, jede Zeile ein Fall (Beobachtung, Kunde, Patient, Einkauf, Versuchsteilnehmer...). Einfach gesagt: so wie Sie es aus Excel kennen. CSV ist ein geeignetes Daten-Format, weil es in allen Systemen lesbar ist (und menschenlesbar ist). Diese Datei lesen Sie in Ihre Analyse-Software (R, SPSS, SAS, Excel...) ein.

 

2) Explorieren

Die Daten liegen jetzt also gut sichtbar von Ihnen. Aber genauso wie wenn Sie Goldnuggets aus dem Fluss heraus waschen, müssen Sie erstmal Kieselsteinchen, Dreck etc. heraustrennen. Daher spricht man auch von "data cleansing". Fluss-Schlamm entspricht hier z.B. Eingabefehlern. Reinigen Sie Ihre Daten bzw. prüfen Sie Ihre Daten von Verunreinigungen.

 

Ein zweiter wichtiger Schritt ist der Umgang mit fehlenden Daten. Was machen Sie mit den "Löchern" in Ihren Datenacker? Das einfachste ist: Nichts. Das kann eine sinnvolle Antwort sein. Die andere Antwort ist logischerweise: Die Löcher mit Werten ersetzen. Und welche? Dafür gibt es viele Methoden; dieses Ersetzen von Daten nennt man auch Datenimputation. Eine Wissenschaft für sich. Eine einfache Möglichkeit wäre: Ersetzen Sie den fehlenden Wert durch den Mittelwert. Ob dieser Wert dem "Loch" gerecht wird? Tja, das weiß Gott allein. Welches Verfahren Sie auch anwenden, Sie sollten die Effekte später vergleichen.

 

Im nächsten Schritt befreunden Sie sich mit den Daten. Sie müssen sie sozusagen bis zur letzten Null kennen. Es gibt keine Entschuldigung für Datenmuster Ihrer Daten, die Sie nicht kennen. Nutzen Sie die deskriptive Statistik, besser gesagt die explorative Datenanalyse. Datenvisualisierung kann hier Wunder bewirken. In diesem Zusammenhang werden Sie auch schon etwas am Datensatz basteln, z.B. neue Variablen erstellen für Mittelwerte etc.

 

3) Modifizieren

So, jetzt sind Sie der Intimus Ihres Datensatzes. Langsam haben Sie ein Gefühl dafür, was in den Daten steckt. Gut. Was jetzt? 

 

Wenn Ihr Datensatz groß ist, kann es sinnvoll sein, ihn zu verkleinern. Dafür haben Sie zwei Möglichkeiten: Variablen (Spalten) heraus schmeißen oder Fälle (Zeile) heraus schmeißen. Wenn Sie Variablen reduzieren möchten, bietet es sich z.B. an korrelierte Variablen zu einer zusammenzufassen (z.B. Hauptachsenanalyse). Für Fallreduktion kann eine (geschichtete) Zufallsstichprobe die richtige Wahl sein.

 

Wenn Sie fehlende Werte haben, könnten Sie jetzt verschiedene Methoden ausprobieren, diese Löcher zu stopfen. Später vergleichen Sie dann Ihre Modellergebnisse aus den verschiedenen Datensätzen.

 

Vielleicht transformieren Sie noch Daten (z.B. logarithmieren), um bessere Anpassung an eine Normalverteilung zu erreichen, oder um nichtlineare Zusammenhänge linear darzustellen.

 

4) Modellieren

Nun rechnen Sie statistische Modelle. Das kann ein einfacher Mittelwertsvergleich sein. Ja, auch das ist Modellierung! Was ist Modellierung? Nichts anderes als eine (vereinfachende) Vorstellung, welcher "Motor" für die "Muster" in Ihrem Datensatz sorgt. Anders gesagt: Mit welcher Formel lassen sich die Datenmuster passabel beschreiben? Beispiel: Sie haben Daten zur Leistung von Mitarbeitern bei Aufgaben mit unterschiedlicher Schwierigkeit. Und siehe da: Es sieht so aus als ließe sich der Zusammenhang dieser beiden Variablen passabel (also nicht perfekt aber ganz gut) mit einer umgekehrt U-förmigen Kurve beschreiben. Das ist Modellierung: Sie suchen die Formel (Funktion), welche die Daten möglichst gut erklärt. Das heißt noch nicht, dass Sie (im besten Fall) das Naturgesetz gefunden haben, welches diese Daten erklärt - höchstens eine Kurzschreibweise dieses Gesetzes. Ansonsten - Achtung: Viele Funktionen können ein Datenmuster beschreiben. Die Funktion, die am besten passt, muss verblüffenderweise nicht die sein, die Sie wählen sollten (Overfitting). 

 

Bei kleineren Stichproben ist es sinnvoll, sich gegen Zufallsbefunde (p-Statistik) abzusichern.

 

Vergleichen Sie am besten mehrere Modelle. Vergessen Sie nicht, dass bestimmten Modelle an bestimmte Voraussetzungen gebunden sind (Unabhängigkeit der Fälle, Normalverteilung der Variablen...).

 

5) Validieren

Jetzt geht es um das Feinschleifen und den "Härtetest". Machen Sie die Probe aufs Exempel: Prüfen Sie, ob Ihr Lieblingsmodell auch neue Daten erklären kann (Validierungsstichprobe). Kann es das nicht, so hat ihr Modell die Zufälligkeiten Ihrer Stichprobe überstrapaziert - ein Luftschloss gebaut. Sie haben leider keine neue Daten und keine Lust, neue zu sammeln? Dann könnten Sie Ihre Modelle auf einen Teil Ihres Datensatzes losstürmen lassen. Dann überprüfen Sie im nächsten Schritt Ihre Favoriten am zweiten Teil des Datensatzes. Sie schneiden sozusagen Ihre Validierungsstichprobe aus dem ursprünglichen Datensatz heraus.

 

Bootstrapping und Resamplingmethoden sind eine ähnliche, sinnvolle Validierungstechnik.

 

6) Bewerten
Wie gut sind jetzt Ihre Modelle bzw. Ihr Favorit? Dazu brauchen Sie geeignete Kennwerte. Z.B. um wieviel Prozent erklärt Ihr Favorit die Kundenentscheidungen (kaufen ja/nein) besser als andere Modelle? Wie sehr überlappen die Verteilungen zwischen alter Ausschussrate der alten vs. der neuen Produktionsmaschine? Mit anderen Worten, Sie bestimmen die sog. Effektstärke.

 

Sie haben leider nichts Aufregendes gefunden? Vielleicht war Ihre Stichprobe zu klein - Zufallsrauschen hat die "Musik" ausgeblendet. Rechnen Sie mit einer Poweranalyse aus, wie groß die Wahrscheinlichkeit war, einen Effekt zu finden (falls wirklich einer da war). Eine geeignete Software dafür ist gpower (kostenlos).

 

7) Zusammenfassen

Bekanntlich verfestigen sich die Gedanken beim Reden. Beim Schreiben gelingt dies noch besser. Fassen Sie also Ihr Vorgehen und Ihre Ergebnisse zusammen. Denken Sie daran, dass Ihr Vorgehen nachprüfbar (reproduzierbar) sein sollte.

 

 

 

 

 

 

Druckversion Druckversion | Sitemap
© Data-Divers