Regression - intuitiv erklärt

Prognosen sind schwierig, besonders wenn sie die Zukunft betreffen

Regression als Vorhersage-Instrument

So wird der dänische Physiker Nils Bohr bei einer Rede zur Quantenphysik zitiert. Wahlweise wird das Zitat auch Marc Twain oder Kurt Tucholksy zugeschrieben…

 

Wer immer der weise Mensch war, er trifft den Nagel doppelt auf den Kopf: Vorhersagen ist erstens ein generell interessantes Geschäft, das zweitens leider nicht einfach ist. Die Regressionsanalyse versucht nun genau dies: Vorhersagen zu treffen.

 

Ein Beispiel wäre, aus dem verfügbaren Einkommen die Lebenszufriedenheit der Person vorherzusagen.

 

Die grundlegende Funktionsweise ist schnell erzählt. Wir schauen uns an, wie hoch die mittlere Lebenszufriedenheit bei den Einkommenshöhen ausfällt, die wir kennen. Angenommen, wir wissen, dass bei geringem Einkommen die Lebenszufriedenheit ebenfalls gering ausfällt. Und angenommen wir wissen weiter, dass bei hohem Einkommen die Lebenszufriedenheit hoch ausfällt. Dann könnten wir messerscharf kombinieren, dass bei mittlerem Einkommen die Lebenszufriedenheit im … mittleren Bereich liegt. 

 

Etwas allgemeiner gesagt, quantifiziert die Regressionsanalyse, wie viel Einheiten vom Kriterieum (Lebenszufriedenheit) man gewinnt, wenn der Prädiktor (Einkommen) um eine Einheit steigt. 

 

Einkommen wird dabei als Prädiktor („X-Wert“ manchmal auch als „Regressor“) bezeichnet und Lebenszufriedenheit als Kriterium („Y-Wert“). Das zweite wird aus dem ersten vorhergesagt bzw. das zweite auf das erste zurückgeführt („Regression“ kommt von lat. zurückgehen).

 

Jetzt sagen Sie sich, das ist ja einfach. Ist es an sich auch. Komplizierter wird es, wenn wir dieses einfache Vorgehen auf Situationen mit mehreren Prädiktoren übertragen: Einkommen, Ausbildungsjahre, Durchsetzungsfähigkeit, Branche etc. als Prädiktoren für Lebenszufriedenheit. Das ist dann mit dem „gesunden“ (?) Menschenverstand nicht mehr so einfach abzuschätzen. Hier lässt die Regressionsanalyse ihre Muskeln spielen. Das Vorhersagen etwas ungeheuer Nützliches sind, liegt auf der Hand (wiewohl sie auch schwierig sind, gerade wenn sie die Zukunft betreffen).

 

Merksatz: Ein Regressionsanalyse dient der Vorhersage von neuen Werten; diese werden auf Basis bekannter Werte geschätzt.

 

Balance zwischen Anpassung und Einfachheit

Schauen Sie sich mal das folgende Diagramm an (ein sog. Streudiagramm). Es zeigt für sieben Menschen das monatliche Einkommen (in Tausend Euro) und die Lebenszufriedenheit (in %).

 

Wenn wir jetzt einen Menschen treffen, nennen wir ihn Alfred, mit fünf Tausend Euro Einkommen, wie hoch würden Sie die Lebenszufriedenheit von Alfred einschätzen? Wahrscheinlich passiert bei dieser Frage in Ihrem Kopf gerade folgendes: Sie haben versucht, auf einfache Art einen „mittleren“ Wert zwischen den Punkten links im Diagramm (geringes Einkommen) und rechts im Diagramm (hohes Einkommen) zu finden. Das ist praktisch dasselbe wie eine Gerade so in die Punktewolke hineinzulegen, dass Sie möglichst nahe an den Punkten dran ist, s. nächstes Diagramm.

So könnte Ihre „geistige Linie“ auch ausgesehen haben. Mit dieser Linie würden Sie die Lebenszufriedenheit bei einem Einkommen von fünf Tausend Euro auf ca. .5 (50%) schätzen.

 

Die Gerade erklärt die Daten nicht perfekt: Bei einigen Einkommen sagt sie etwas zu viel Zufriedenheit vorher, bei anderen zu wenig. Aber insgesamt passt sie ganz gut. Die Gerade lässt sich in Form y = mx + t darstellen. Dabei ist y die Zufriedenheit, m die Steigung der Geraden und t der Achsenabschnitt (also y bei x = 0).

 

Jetzt könnten Sie sagen: Das reicht mir nicht! Ich will, dass ich die Zufriedenheit perfekt vorhersagen kann. Also gut, suchen wir eine Funktion, die die Daten perfekt erklärt. 

Nach etwas basteln finden wir ein Polynom der Stufe 6, welches die Daten perfekt erklärt. Ein Polynom der Stufe 6 hat folgende allgemein Form: y = b0 + b1x + b2x^2 + b3x^3 + … + b6x^6. Dabei steht b jeweils für einen der 7 Parameter (b0 bis b6), y ist die jeweilige Zufriedenheit und x das Einkommen. Die Parameter lauten:

b

Wert

0

289.60

1

-469.12

2

303.65

3

-100.72

4

18.08

5

-1.67

6

0.06

Und der Graph sieht so aus (s. Diagramm). Wie versprochen, passt die Funktion perfekt auf die Daten. Nur: die merkwürdige Talfahrt bei x = 7 stimmt uns kritisch. Das ist kaum plausibel. Mit anderen Worten: das komplizierte Vorhersagemodell passt zwar ganz genau auf die Daten, aber es ist unwahrscheinlich, dass er das Wesen des „Daten erzeugenden Mechanismus“ gefunden hat. Er wird wohl neue Werte (denken Sie an Alfred) nur bedingt einschätzen können. In der Vorhersage ist das einfache Modell wahrscheinlich besser. 

Woran liegt das? Das komplizierte Modell (Polynom 6. Grades) ist „überangepasst“ – zu gut, um wahr zu sein. Es nimmt Zufallsschwankungen in den Daten für bare Münze. Da diese Zufallsschwankungen aber bei zukünftigen Fällen nicht zu erwarten sind, wird die Vorhersagegüte des komplizierten Modells nicht so gut ausfallen. Man spricht in diesem Fall von „overfitting“.

 

Unsere Aufgabe ist es also, das Modell (den Graphen) zu finden, welches der beste Kompromiss zwischen Einfachheit und Datenanpassung darstellt. Oft nimmt man einfach eine Gerade („lineares Modell“).

 

Damit haben wir unseren zweiten Merksatz erarbeitet:

 

Merksatz: Ein Vorhersagemodell muss zwischen Genauigkeit der Anpassung und Einfachheit balancieren.

Die Güte der Anpassung bestimmen

Ok, eine Gerade ist offenbar häufig ein praktisches Modell, um eine „Wolke“ an Daten zu erklären. Woher weiß ich nun, wie gut meine Gerade die Daten erklärt? Mit welcher Zahl kann ich das fassen. 

Lesen Sie dazu diesen Artikel:

Warum die Abweichungswerte quadrieren?

Man kann sich das Leben ja kompliziert machen. Gut, die Abstände - die Länge der „Stecken“ ist ein Maß für die Güte dafür, wie gut das Modell die Daten beschreibt. Aber muss man gleich quadrieren? Überhaupt: Warum wenn schon kompliziert, dann nicht gleich hoch 3 oder hoch 4 nehmen?

 

Es ist einsichtlich, dass man nicht einfach die Abweichungen inklusive der Vorzeichen aufaddieren kann - positive und negative Abweichungen würden sich ausgleichen. Ein Modell das manchmal viel zu geringe und manchmal viel zu hohe Werte vorhersagt, wäre dann „im Schnitt“ ein super Modell. Damit geben wir uns nicht zufrieden. Aber warum nicht einfach die Absolutabstände nehmen? Also bei den Abweichungswerten -4, +4, -2, +2 wäre die Summe der Absolutabstände gleich 12.

 

Tatsächlich wäre es grundsätzlich eine Möglichkeit die Absolutabstände heranzuziehen. Einige Punkte sprechen aber dagegen. Stellen Sie sich folgendes Beispiel vor: In Situation A weichen zwei Punkte jeweils 5 Messeinheiten von der Modellvorhersage ab. In Situation B weichen zwei Punkte einmal 1 Messeinheit und einmal 9 Messeinheiten ab. Gehen wir weiter davon aus, dass sich die Abweichungen in beiden Situationen normalverteilen - kleine Abweichungen also wahrscheinlicher als große. Damit ist die Wahrscheinlichkeit von Situation B großer als von Situation A. Warum? Weil „mittlere Wahrscheinlichkeit mal mittlere Wahrscheinlichkeit“ einen größere Wahrscheinlichkeit ergibt als „geringe Wahrscheinlichkeit mal hohe Wahrscheinlichkeit“ (z.B. .5 * .5 = .25 aber .1 * .9 = .09; .5 ist größer als .09).

 

Quadrierte Wahrscheinlichkeiten spiegeln diesen Sachverhalt wider, absolute Abweichungen nicht!

 

Wenn Sie also von normalverteilten Abweichungen ausgehen (was sicher oft plausibler ist als gleichverteilte Abweichungen), dann spiegelten quadrierte Abweichungen diese Annahme besser wieder als Absolutabweichungen.

 

PS: Sie fragen ob, ob die Annahme von normalverteilten Abweichungen wirklich plausibler ist? Wie können wir diese Annahme rechtfertigen? Das Galton-Brett ist eine Verdeutlichung, wie sich die Normalverteilung manifestiert. Auf der anderen Seite: Manch ein skeptischer Statistiker hält die Normalverteilung (und Näherung an dieses mathematische Gebilde) für etwa genauso häufig anzutreffen in der Wirklichkeit wie ein Einhorn.

Warum sollten die Abweichungen für alle Werte des Prädiktors gleich sein (Homoskedastizität)?

Schon allein das Wort! Homoskedastizität! Was will uns dieses Ungetüm sagen und sollten wir ihm zuhören?

 

Stellen wir uns die gegenteilige Situation vor. Bei der Vorhersage der Lebenszufriedenheit aus dem Einkommen machen wir bei geringen Einkommen nur geringe Vorhersagefehler (geringe Abweichungswerte zwischen den vorhergesagten Werten unseres Modells und den echten Werten). Bei hohen Einkommenswerten aber große Fehler. Könnte ja sein.

 

Wenn wir jetzt aber die durchschnittliche Abweichung (bzw. den Durchschnitt der Aweichungsquadrate) ausrechnen, haben wir ein Problem. Wenn wir diese mittlere Abweichung für Vorhersagen neuer Werte im ganzen Wertebereich nehmen, dann unterschätzen wir die Abweichungen für große Einkommenswerte und überschätzen sie für kleine. Wir machen also in jedem Fall einen Fehler. Das ist nicht das, was wir wollen.

 

Entweder prüfen wir also, ob sich die Annahme eines durchschnittlichen Fehlers halten lässt, oder wir berechnen „lokale“ Abweichungsdurchschnitte. Das macht die Sache dann präziser, aber auch aufwändiger. 

Weit weg - Was ist ein Ausreißer

Stellen Sie sich folgende Situation vor: Sie haben von 100 Menschen Daten gesammelt zum Einkommen und zur Lebenszufriedenheit. Alle Daten passen wunderschön in Ihr Modell, dass geringes Einkommen mit geringer Lebenszufriedenheit und hohes Einkommen mit hoher Zufriedenheit einher geht. Frohgemut sammeln Sie noch die Werte einer weiteren Person. Unschönerweise verdient die Person sehr viel und ist trotzdem sehr unzufrieden mit ihrem Leben. Das schmeckt Ihnen nicht (der betroffenen Person auch nicht).

 

Allgemeiner gesprochen: Die Person hat einen extremen Wert im Prädiktor und zusätzlich eine hohe Abweichung bzgl. der Modellschätzung. Beides zusammen macht Herrn Hunderteins zu einem Störenfried - er könnte ihr Modell ernsthaft verzerren. Sozusagen eine Art Übernahme (freundlich oder feindlich, wissen wir nicht).

Nachdem Sie die Daten dieser Person hinzugefügt haben und die Regressionsgerade neu berechnet haben, stellen Sie fest, dass die Person die Gerade stark in eine neue Richtung lenkt - sie wird deutlich flacher. Sollte einer einzelnen Person so viel Gewicht zukommen, dass Ihre ganze Theorie (oder bescheidener: das Modell) substanziell verändert wird?

 

Aber was heißt „viel“ fragen Sie sich. Viel im Vergleich zu was? Um diese Frage zu beantworten, entfernen Sie aufs Geratewohl eine Person und berechnen die Regressionsgerade neu. Das wiederholen Sie mehrfach und vergleichen jeweils die Veränderung der Regressionsgeraden. Wenig überraschenderweise finden Sie, dass nur die 101. Person großen Einfluss hat, die übrigen Personen ändern die Regressionsgerade kaum merklich, wenn Sie diese aus den Datensatz entfernt haben.

Woran liegt das? Es hat zwei Ursachen. Erstens: Genau wie man mit einer langen Stange eine stärkere Hebelwirkung erzielen kann als mit einer kurzen, wirken Fälle die weit weg sind vom Mittelwert eine stärkere „Hebelwirkung“ aus als Fälle, die sich nahe beim Mittelwert befinden. 

Merksatz: Je weiter ein Fall vom Mittelwert des Prädiktors entfernt ist, desto größer ist sein Einfluss („Hebel“).

 

Den Hebelwert eines Falls bezeichnet man aus einsichtigen Gründen als „leverage“.

 

Zweitens: Fälle mit großer Abweichung haben ebenfalls das Potenzial, die Regressionsgerade zu beeinflussen - also bzgl. Lage und Steigung zu verändern.

 

Merksatz: Der Einfluss eines Falls ist proportional zu dem Produkt aus Hebel und Abweichung.

 

Ein paar Fachbegriffe: DfFitsS eines Falles i bezeichnet die Differenz („Df“) zu seiner Abweichung („Fit“), wenn man die Regressionsgerade ohne ihn berechnet. In der Regel nimmt man dafür nicht die Abweichung in Rohwerteiheiten her, sondern standardisiert an der Streuung und seinem Hebel.

 

Analog bezeichnet DfBetaS eines Falles i die Differenz im Regressionskoeffizienten (Beta), wenn man die Regressionsgerade ohne ihn berechnet. Wiederum wird die Differenz standardisiert, hier am Standardfehler des Regressionskoeffizienten.

 

DfFitS und DfBetaS geben einen Einflusswert aus, der einen Differenzwert für einen Fall ausgibt. Cooks D hingegen ist ein Koeffizient, der für alle Fälle einen Schätzwert berechnet, wobei der fragliche Fall (Herr Hunderteins) herausgenommen wurde. Es könnte ja sein, dass alle erleichtert aufatmen, wenn Herr Hunderteins nicht mehr an Bord ist. Mit anderen Worten: Es könnte sein, dass die Herausnahm eines Falles i auf alle verbleibenden Fälle im Datensatz einen Einfluss hat hinsichtlich ihrer Abweichungen vom Schätzwert.

Eine Gerade ist mir zu langweilig - ich möchte flexiblere Modelle anpassen

Kein Problem. Das Prinzip ist das gleiche wie bei einer Geraden: Man nehme den Graph seines Begehrs (z.B. ein Polynom 6. Grades - s. oben) und wähle die Koeffizienten so, dass die Abweichungen der Punkte zum Graph minimal werden. Voila! Aber Vorsicht vor dem „Overfitten“ - wie oben diskutiert.

Ich habe gehört, die Abweichungen sollen sich normalverteilen - warum?

Man liest in jedem Statistikbuch, dass sich die Abweichungswerte - gemeinhin als Residuen bezeichnet und mit e abgekürzt - normalverteilen sollen. Manchmal liest man auch, o Verwirrung, dass sich auch die abhängigen und/oder die unabhängigen Variablen brav der Gaußschen Kurve folgen sollten. Was denn nun?

 

Um eine Kurve (in der Regel eine Gerade) in eine Punktewolke zu legen, so dass sich die Kurve „wohl fühlt“ - die Residuen also minimal sind - braucht es erstmal keine Normalverteilung irgendeiner Art. Allerdings, wie oben diskutiert, bieten sich quadrierte Abweichungssummen bei normalverteilten Werten besonders an. 

 

In der Regel wird man von seiner Analyse sagen, dass die Werte des Prädiktors zufällig gezogen sind - daher gehen wir von normalverteilten Werten im Prädiktor aus.

 

Für jeden unserer (in der Stichprobe realisierten) Prädiktorwerte gehen wir davon aus, dass sich die Abweichungen von unserem Vorhersagewert normalverteilen. Dann können wir die üblichen inferenzstatistischen Verfahren einsetzen, um Konfidenzintervalle für den Standardfehler zu bestimmen (und auf Signifikanz zu testen).

Mit anderen Worten: Nicht nur die Prädiktorwerte insgesamt - also die bzgl. Y unbedingten Werte - sondern auch für jeden X-Wert sollen die jeweiligen Y-Werte normalverteilt sein. Noch dazu mit unserem Vorsagewert als Mittelwert - und mit konstanter Streuung. Ganz schön strenge Annahmen, gerade wenn wir mehrere Prädiktoren im Modell haben. Man spricht von einer bivariaten Normalverteilung. Zu dieser bivariaten Normalverteilung gehört auch, dass sich für jeden Y-Wert die X-Werte normalverteilen.

 

Hier hilft uns der zentrale Grenzwertsatz der Statistik weiter: Große Stichproben unabhängiger Elemente (>30) verteilen sich tendenziell normal, egal (!) von welcher Verteilung sie entnommen wurden.

Tatsächlich ist die Annahme der Normalverteilung der Fehler nicht unplausibel: wenn einigermaßen viele, etwa gleich starke und unabhängige Effekte zusammenwirken, ist eine Normalverteilung eine plausible Folgeverteilung (vgl. Galton-Brett).

 

Halten wir also fest: Im Falle von zufällig gezogenen Prädiktorwerten benötigen wir bivariat normalverteilte Werte. Aufgrund des zentralen Grenzwertsatzes ist die Regressionsanalyse aber recht robust gegenüber Verletzungen dieser Annahme.‚

Druckversion Druckversion | Sitemap
© Data-Divers