Predictive Modeling

Vorhersage aufgrund bestehender Daten

Unter prädiktiver Modellierung (predictive modeling) versteht man die Vorhersage von neuen Werten auf Basis von bestehenden Werten anhand eines Modells, das die Zusammenhänge in den bestehenden Daten nutzt. Beispiel: Anhand einer Kundenbefragung möchten Sie einschätzen, welche Kunden sich für ein gegebenen Produkt entscheiden werden. Aufgrund bestehender Daten wissen Sie, welches Kundenprofil zu einer positiven Kaufentscheidung geführt hat. Dieses Wissen möchten Sie einsetzen, um für neue Kunden vorherzusagen, ob diese sich für das Produkt entscheiden werden.

Fallstudie: Kauft der Kunde das Unterhaltungsgerät?

Sie haben eine Kundenbefragung bei ca. 200 Kunden durchgeführt. Das Ziel ist es herauszufinden, ob diese Daten Ihnen Aufschluss geben, ob der Kunde ein  bestimmtes Produkt (Unterhaltungselektronik) kaufen wird (ja/nein). Dazu setzen Sie eine prädiktive Modellierung ein.

Vergleich mehrerer prädiktiver Modelle

Ihr Ziel ist es also anhand der bestehenden Daten der Kundenbefragung vorherzusagen, ob ein Kunde sich für das Unterhaltungsgerät entscheidet (oder nicht). Wichtig dabei ist, Ihr Modell nicht an den Daten zu überprüfen, die Sie zur Entwicklung des Modells eingesetzt haben (Overfitting). Sie wählen eine Reihe von modernen Modellen aus, die aufgrund Ihres Vorwissens für die aktuelle Fragestellung geeignet sind. Dann bestimmen Sie die Genauigkeit, mit der das Modell Käufer als Käufer identifiziert (Sensitivität) und die Genauigkeit, mit der das Modell Nicht-Käufer als Nicht-Käufer identifiziert. Darüber hinaus bestimmen Sie noch die überzufällige Treffergüte: Um wieviel ist die Treffergüte besser als ein Zufallstreffer? Cohen's Kappa gibt Ihnen dazu eine quantifizierte Antwort. Eine effiziente Möglichkeit, verschiedene prädiktive Modelle zu vergleichen, bietet das R-Paket "caret".

Es zeigt sich, dass das Modell "rf" die beste prädiktive Leistung bringt. Die Vorhersagegüte aller Modelle basiert auf einen Teil der Daten, die nicht zur Spezifierung des Modells eingesetzt wurde. Beim Modell "rf" handelt es sich um das Modell "Random Forest", welches z.B. den Vorteil besitzt, mit einer großen Anzahl von Prädiktoren umgehen zu können - es können sogar mehr Prädiktoren als Fälle (hier: Kundenantworten) sein. Außerdem ist es viel voraussetzungsärmer als klassische lineare Modelle wie die Regression (Quelle). Da das Random-Forest-Modell für die vorliegenden Daten vielversprechend zu sein scheint, analysieren Sie im nächsten Schrit dieses Modell näher.

Die Aussagekraft einzelner Items bestimmen

Die neben stehende Grafik zeigt den Erklärungswert jedes Items (jeder Frage in der Kundenbefragung). Je höher der sog. "MDA-Wert", desto besser der Erklärungswert des Items. MDA steht für "mean decrease in accuracy". Dieser Wert gibt den mittleren Verlust in Genauigkeit an (in Prozentpunkten), den man in Kauf nehmen müsste, wenn dieses Item keinen Informationsgehalt inne hätte. Wie im Diagramm ersichtlich, ist Item 17 das mit einigem Abstand wichtigste Item zur Vorhersage der Kaufentscheidung. Es  bieten sich damit marketingorientierte Maßnahmen an, um die Erkenntnisse dieser Datenanalyse weiterzuführen.

Druckversion Druckversion | Sitemap
© Data-Divers