Evaluation Research

Hat Ihre Maßnahme gewirkt?

Sie haben den Produktkonfigurator auf Ihrer Webseite überarbeitet und möchten wissen, ob dieser wirklich häufiger genutzt wird. Sie haben Ihre Vertriebsmannschaft in einem System geschult und wollen wissen, ob damit die Vertriebserfolge steigen. Die neue Produktionszentralmaschine scheint mehr Ausschuss zu produzieren als die alte - oder ist das Zufall? 

 

Solche und ähnliche Fragen bezeichnet man als Evaluationsforschung. Evaluation bedeutet dabei soviel wie Abwägen oder Urteilen. Es geht also um die Frage, wie gut/wirksam/effektiv ist eine Maßnahme im Vergleich zu einer oder mehreren anderen.

 

Typische Fallstricke in Evaluationsstudien

Unterschied signifikant - alles gut?

Ob eine Maßnahme "besser" ist als eine andere, machen viele Untersucher an der "statistischen Signifikanz" fest - kurz, dem berühtme p-Wert nach Sir Karl A. Fisher. Dabei gilt: je kleiner der p-Wert, desto besser. Normalerweise werden p-Werte kleiner als 5% als "statistisch signifikant" bezeichnet. Viele Praktiker, aber auch Wissenschaftler verstehen den p-Wert falsch! "Der p-Wert gibt mir die Wahrscheinlichkeit an, dass das Ergebnis zufällig entstanden ist. Daher kann ich bei einem p-Wert von 3% davon ausgehen, dass mein Effekt zu 97% nicht-zufällig ist!". Das ist die Idee, die obwohl falsch, weit verbreitet ist. Korrekt formuliert, gibt der p-Wert die Wahrscheinlichkeit der Daten (oder noch extremerer Daten) wieder - unter der Annahme, dass die getestete Hypothese (die "H0") korrekt ist. Ob aber die H0 korrekt ist, wird nicht beurteilt im Kontext der Signifikanzprüfung. 

 

Mit Bayes' Theorem hingegen ist es möglich, die Wahrscheinlichkeit der Hypothese im Lichte der Daten zu bestimmen - und damit die Frage zu beantworten, die eigentlich interessant ist. Allerdings ist es dafür nötig, Annahmen zur Wahrscheinlichkeit der Hypothese zu treffen bevor man Daten zu ihr hat. Dies macht den Ansatz für einige zu subjektiv.

Wie groß ist der Unterschied zwischen den Maßnahmen?

Auch ein statistisch signifikanter Unterschied zwischen Ihrer neuen und alten Aussschussquote sagen noch nichts (entgültig) darüber aus, wie groß der Unterschied ist. Natürlich kennen Sie den Unterschied bzw. die Größe des Unterschieds in Ihren Daten. Aber wie groß ist der zu erwartende Unterschied in zukünftigen Daten? Innerhalb welches Schätzbereiches sind die Unterschiede (die "Effekte") in Zukunft zu erwarten?

 

Um diese Fragen zu beantworten, setzt man sog. Effektstärkemaße ein. Diese quantifizieren den Unterschied häufig im Verhältnis zur Streuung der Daten. Auf dieser Basis lässt sich über den Signifikanzwert hinaus auf die Stärke des Unterschieds zwischen den Maßnahmen (z.B. alte vs. neue Maschine) schließen.

Druckversion Druckversion | Sitemap
© Data-Divers