Regressionsanalyse: R-Quadrat

Was ist R-Quadrat und wozu ist es gut?

Bei prädiktiven Modellen, wenn es also darum geht, Verhalten vorherzusagen auf Basis von statistischen Modellen, spielt das sog. Bestimmtheitsmaß (R-Quadrat) eine wichtige Rolle.

 

Kurz gesagt zeigt es an, wie gut ein Modell die Daten erklärt. Der Wert beweg sich zwischen 0 und 1; je größer desto besser erklärt das Modell die Daten. Ein Wert von 1 (findet man in der Praxis nie) würde bedeuten, dass das Modell die Daten zu 100% erklärt.

 

Schauen wir uns das mal mit einem einfachen Beispiel an (siehe Diagramm). Angenommen wir haben von 10 Kunden jeweils die Höhe des gewährten Rabatts (X-Achse, 1 bis 10) erfasst und jeweils auch die Zufriedenheit mit dem gekauften Produkt (Y-Achse, etwa zwischen 2 und 6 Punkten). Auf dieser Basis können wir prädiktives Modell erstellen, welches die Zufriedenheit aus dem Rabatt vorhersagt (Natürlich von neuen Kunden, bei denen wir den gewährten Rabatt kennen). Eine einfache Möglichkeit dazu ist die normale lineare Regression.

 

Wie berechnen wir jetzt hier R-Quadrat?


Überlegen wir zuerst, wieviel "Unterschiedlichkeit" in den Daten ist. Diese Unterschiedlichkeit messen wir als Abstand zum Mittelwert. Je weiter die einzelnen Punkte vom Mittelwert entfernt sind, desto größer die Unterschiedlichkeit in den Daten. Diese Abweichungen ("deltas") vom Mittelwert sind im Diagramm links rot eingezeichnet. 

 

Wenn man jetzt die roten "Stecken" aneinander legen würde, käme eine recht lange Strecke heraus. Natürlich gilt: je länger jeder Einzelne der roten Stecken, desto länger die zusammengelegte Strecke.  In der Praxis legt man nicht die Stecken nebeneinander, sondern Ihre Quadrate. Das Prinzip bleibt aber das gleiche.

 

Wenn wir nur die Zufriedenheit der Kunden kennen und keine weiteren Informationen haben, dann ist der Mittelwert ein plausibler Wert, um die Zufriedenheit neuer Kunden vorherzusagen. Ein Maßstab für unseren Erfolg mit dieser Methode gibt uns die rote Gesamtlänge: Je länger, desto schlechter wird unsere Vorhersage sein. Wenn die rote Gesamtlänge sehr kurz ist, so ist eine sehr exakte Vorhersage zu erwarten.

Als nächstes machen wir folgendes: Wir legen eine Gerade so in unsere Punkte, dass sie "schön in der Mitte der Punkte liegt". Das heißt, die Längen der *blauen* Stecken sollen möglichst kurz sein. Das macht der Computer für uns praktischerweise. (In der Praxis ist es wiederum nicht die Gesamtlänge der blauen Stecken, die kurz sein soll, sondern deren Quadrat. Prinzip ist dasselbe). Man könnte also sagen, unsere Gerade beschreibt die Daten bestmöglich.

 

Anhand dieser (blauen) Gerade - eine lineare Regression - können wir nun Daten vorhersagen. Und zwar ist unser vorhergesagter Wert immer der Y-Wert der Gerade am jeweiligen X-Wert. Wir möchten also z.B. wissen, welche Kundenzufriedenheit wir bei einem bestimmten Rabatt erwarten können. Bei einem Rabatt von 5 sagt unser Modell eine Zufriedenheit von knapp 4 voraus.

Jetzt kommt der spannende Teil: Wir vergleichen die Gesamtlänge der Stecken (rote vs. blaue). Am Anfang hatten wir als Maß für die Unterschiedlichkeit in den Daten die rote Gesamtlänge herangezogen. In unserem Vorhersagemodell haben wir hoffentlich weniger Unterschiedlichkeit als mit nakter Schätzung durch den Mittelwert (darum machen wir ja die ganz Übung). Aber wieviel besser?

Naja, vergleichen wir mal die rote Gesamtlänge mit der blauen Gesamtlänge. Hm, die blaue ist etwas kürzer als die rote. Also haben wir durch unser Vorhersagemodell die Unterschiedlichkeit in den Daten reduziert: Wir können jetzt also mit weniger "Abweichung" die einzelnen Werte raten, äh will sagen, vorhersagen.

 

Um wieviel sind wir besser? Rechnen wir mal ROT minus BLAU ... dann kommt der GRÜNE Stecken raus. Die grüne Stecke ist also die "Länge" um die sich die Unterschiedlichkeit in den Daten verringert hat.

 

Ach ja, man könnte natürlich auch rechnen GRÜN geteilt durch BLAU. Dann hätten wir den Anteil an der Gesamtunterschiedlichkeit, welche durch unser Modell erklärt wird. BLAU geteilt durch ROT wäre dann der Anteil der Unterschiedlichkeit, welcher nicht nur unser Modell erklärt wird.

In der Praxis nennt man die rote Strecke (genauer gesagt die Summe ihrer Quadrate) auch "Sum of Squares total" (SS-T). Die blaue Strecke entsprechend "Sum of Squares error" (SS-E) und die grüne Strecke "Sum of Squares model" (SS-M).

 

Damit hätten wir das R-Quadrat berechnet :)

Druckversion Druckversion | Sitemap
© Data-Divers