Wertebereich der Korrelation

Warum bewegt sich die Korrelation immer zwischen -1 bis +1?

Die Korrelation - Pearsons klassisher Koeffizient zum Zusammenhang (zweier) Variablen ist einer der am häufigsten eingesetzten und bekanntesten Statistiken. Was jeder weiß: Diese Korrelation vermittelt die Stärke des linearen Zusammenhangs zweier metrischer Variablen.

 

Aber warum bewegt sich der Wertebereich der Variablen eigentlich von -1 über 0 bis +1? Warum nicht von -2.71 bis +3.14 oder sonst ein Wertebereich?

 

In diesem Artikel entwickeln wir dafür eine Intuition.

 

 

Wann ist die Korrelation maximal (perfekt)? Genau dann wenn alle Punkte (Wertepaare) auf einer Geraden liegen. Das folgende Beispiel illustrier dies mit 4 Punkten, die symmetrischen um ihren Mittelpunkt liegen:

 

Wie groß ist die Streuung (Varianz bzw. Standardabweichung) in diesem Fall? Mit anderen Worten: Wie groß ist der durchschnittliche quadrierte Abstand der Punkte von ihrem Mittelwert im Ursprung?

 

Zeichnen wir diese Quadrate ein:

Die Varianz entspricht die Summe dieser vier Quadrate geteilt durch vier (deren Anzahl). In unserem Beispiel ist dies 2,5. Man kann sich die Varianz also als das "typische" Quadrat als Repräsentant der vier Orginalquadrate vorstellen:

Die Seitenlänge des Quadrats gibt die Standardabweichung wider (die die Wurzel der Varianz ist); die Fläche des Quadrats steht für die Varianz.

 

Soweit, sogut. Das ist also der Fall bei perfekter Korrelation. 

 

Als nächstes schauen wir uns eine nicht-perfekte Korrelation an. Um die Angelegenheit vergleichbar zu machen, halten wir die Anzahl der Punkte und die Varianz konstant:

Da die Abweichungen mit Mittelwert in der Summe dieselben sind wie oben, muss die Varianz identisch zum oberen Beispiel sein. Die Standardabweichung dann auch. Das gilt sowohl für X als auch für Y.

 

Wie groß sind in diesem Fall unsere Quadrate... Moment, Rechtecke, sind es dieses Mal:

Da die Abweichungen mit Mittelwert (bei uns der Punkt (0/0)) in beiden Beispielen (oben - "blaues Datenset", unten - "rotes Datenset") identisch sind, sind auch die Umfänge der Rechtecke (oben Quadrate) identisch. Aber sind es auch die Flächen?

 

Anders gefragt: Gegeben sind ein Quadrat und ein Rechteck (nicht quadratisch) mit dem selben Umfang. Wer von beiden hat die größere Fläche? Oder sind die Flächen identisch? Hm.

 

Verdeutlichen wir uns das anhand einer Skizze:

Das Quadrat mit der Seitenlänge 5 hat den selben Umfang wie das Rechteck mit den Seitenlängen 6 und 4, nämlich 20.

 

Aber wie verhält es sich mit den Flächen? Quadrat: 25; Rechteck 24. Das Quadrat hat also eine größere Fläche!

 

Ist das vielleicht ein Sonderfall oder hat dieses Ergebnis allgemeinen Gültigkeitsanspruch? In diesem Beispiel war der Unterschied der Seitenlängen gering (1); erhöhen wir den Unterschied der Seitenlänge (z.B. Rechteck mit Seitenlängen 9 und 1), wird auch der Unterschied der Flächen drastischer. Nur wenn das Quadrat und das Recheck gleiche Seitenlängen haben - das Rechteck also ein Quadrat ist - sind auch die Flächen identisch. Es scheint also für alle Fälle zu gelten, dass das Quadrat die größere Fläche hat. 

 

Darüber hinaus können wir uns den Unterschied der Seitenlänge in Höhe von 1 als 1 Mikro- oder Nanometer vorstellen. Das heißt, unsere Skizze gilt für beliebig kleine Unterschiede bzw. Abweichungen! Wenn es für beliebig kleine Abweichungen gilt, heißt das, dass es für beliebig große Abweichungen auch gilt.

 

Wir sehen also: Gegeben eines fixen Umfangs hat das Quadrat stets die größere Fläche als das Rechteck.

 

Was heißt das für unsere Korrelationsfrage? Die Quadrate fanden wir nur in dem Fall der maximalen Korrelation (+1 bzw. -1). In allen anderen Fällen ist die Fläche kleiner.

 

Wir können die Frage nach dem „Warum“ der Korrelationsbereichs jetzt wie folgt umformulieren: Gegeben die gleichen Abweichungen (Summe der Seitenlängen) - hat ein Quadrat immer eine größere Fläche als ein (nicht-quadratisches) Rechteck?

 

Tatsächlich ist es so, dass ein Quadrat den Umfang (Summe der Seitenlängen) optimiert. Das heißt, jedes Rechteck hat in dem Maße weniger Fläche als ein Quadrat (gegeben eines fixen Umfangs), in dem es vom quadratischen Seitenverhältnis abweicht.

 

Und warum ist das so? Warum weist das quadratische Rechteck das beste Verhältnis von Umfang zu Fläche auf? Mit anderen Worten: Wie schafft es das Quadrat, aus jedem bisschen Seitenlänge möglichst viel Fläche herauszuquetschen?

 

Man könnte es sich so verstellen: Der Meister aller Klassen, was das Umfang-Flächen-Verhältnis betrifft, ist der Kreis. Das Quadrat ist dem Kreis geometrisch ähnlicher als nicht-quadratische Rechtecke. Daher ist das Umfang-Flächen-Verhältnis des Quadrats auch besser als das anderer Rechtecke.

 

Wir könnten jetzt wiederum fragen, warum der Kreis der Meister aller Klassen ist. Aber wir könnten auch einfach staunen vor der Perfektion des Kreises - die sich hier übrigens analog in drei Dimensionen (als Kugel) wiederfindet. Ich entscheide mich für das Staunen.

Beispiel

Angenommen wir korrelieren Körpergröße und Körpergewicht deutscher Männer. Wir hoffen, nebenbei gesagt, auf eine einigermaßen starke Korrelation und fürchten eine figürliche Unförmigkeit, die sich in einer nicht vorhandenen Korrelation niederschlüge (wir bleiben im Konjunktiv).

 

Mal angenommen, die Korrelation wäre perfekt. Dann gäbe es für jede Körpergröße genau ein Körpergewicht. Eine Eins-zu-eins-Zuordnung von Größe zu Gewicht.

Schön, nicht wahr (s. Diagramm)? Der Deutsche Mann ist vorhersagbar, zumindest was den Zusammenhang von Größe und Gewicht betrifft.

 

Jetzt könnten wir uns auch überlegen, uns von den konkreten Einheiten der Größe (Meter, Fuß, Inch…) bzw. Gewicht (Kg, Pfund, Tonne…) unabhängig zu machen.

 

Wir sagen also: jemand, der zu den größten gehört gehört auch zu den schwersten. Also zum Beispiel jemand, der größer als 90% der Männer ist, sollte auch schwerer als 90% der Männer sein.

Das erreichen wir „im Prinzip“ wenn wir die Rohwerte in z-Werte umwandeln. Z-Werte geben den Abstand eines Messwerts vom Mittelwert an, standardisiert an der Streuung der Verteilung. Wer zu den Glücklichen gehört, der die Quantile der Normalverteilung weiß, könnte sofort sagen, welcher  z-Wert zu welchem Prozentrang der Normalverteilung gehört (immer angenommen, die beiden Größen sind normalverteilt, was wir hier der Einfachheit halber annehmen). So steht ein z-Wert von 1 für einen Prozentwert von etwa 84.

 

Beeindruckenderweise sieht das Diagramm … nicht wirklich anders aus. Man beachte, dass die Achsen jetzt z-Werte ausweisen.

 

Ansonsten alles identisch zum vorherigen Diagramm. Muss ja auch, schließlich haben wir die Werte nicht geändert, sondern sie nur in einer anderen Maßeinheit ausgedrückt. Ihre Position zueinander blieb dabei unverändert (eine lineare Transformation).

Gut, die Neuartigkeit dieses dritten Diagramms wirft Sie nicht vom Hocker. Aber beachten Sie zumindest, dass die Achsen im nächsten Diagramm die Perzentile der zu den Daten zugehörigen Normalverteilung darstellen. Mit anderen Worten: Wenn die vorliegenden Daten zu einer Normalverteilung (mit Mittelwert und Streuung entsprechend den Stichprobenwerten) gehören, dann kann man für jede Person (Punkt im Diagramm) sagen, welchen Prozentrang er in dieser Normalverteilung einnimmt. Dies zeigt das nebenstehende Diagramm.

 

 

Ah! Wenn die Korrelation perfekt ist, also r = 1 ist, dann und nur dann sind die z-Werte pro Beobachtung gleich groß.

 

Die Abweichung von der perfekten Korrelation schlägt sich also in einer Abweichung der z-Wert-Gleichheit einer Beobachtung nieder. Je unterschiedlicher die z-Wert einer Beobachtung, desto größer die Abweichung von einer perfekten Korrelation.

 

Da die Korrelation als durchschnittliches z-Wert-Produkt (über alle Beobachtungen) verstanden werden kann, gilt:

Je unterschiedlicher ein z-Wert-Paar im Schnitt ist, desto näher ist die Korrelation an der Null-Korrelation. Als Pseudo-Formel:

 

r = Durchschnitt(z-Wert-Produkte)

Druckversion Druckversion | Sitemap
© Data-Divers