Einen weiteren Punkt haben wir in unserer Diskussion über den Korrelationskoeffizienten r und das Bestimmtheitsmaß r2 noch nicht betont – nämlich, dass die beiden Maße die Stärke einer linearen Beziehung nur in Stichproben zusammenfassen. Hätten wir eine andere Stichprobe, würden wir andere Korrelationen, andere r2-Werte und damit möglicherweise andere Schlussfolgerungen erhalten. Wie immer wollen wir Schlussfolgerungen über Populationen ziehen, nicht nur über Stichproben. Um dies zu tun, müssen wir entweder einen Hypothesentest durchführen oder ein Konfidenzintervall berechnen. In diesem Abschnitt lernen wir, wie man einen Hypothesentest für den Populationskorrelationskoeffizienten ρ (der griechische Buchstabe „rho“) durchführt.
Wo passt dieses Thema zufällig in die vier Schritte der Regressionsanalyse?
- Modellformulierung
- Modellschätzung
- Modellauswertung
- Modellanwendung
Es handelt sich um eine Situation, in der wir das Modell verwenden, um eine spezifische Forschungsfrage zu beantworten, nämlich ob eine lineare Beziehung zwischen zwei quantitativen Variablen besteht oder nicht
Im Allgemeinen, sollte ein Forscher den Hypothesentest für die Populationskorrelation ρ verwenden, um von einem linearen Zusammenhang zwischen zwei Variablen zu erfahren, wenn es nicht offensichtlich ist, welche Variable als Antwort betrachtet werden soll. Verdeutlichen wir diesen Punkt am Beispiel von zwei verschiedenen Forschungsfragen.
Wir haben zuvor gelernt, dass wir, um zu evaluieren, ob eine lineare Beziehung zwischen der Hautkrebssterblichkeit und der geografischen Breite besteht, einen der folgenden Tests durchführen können:
- t-Test zum Testen von H0: β1= 0
- ANOVA F-Test zum Testen von H0: β1= 0
Das liegt daran, dass es ziemlich offensichtlich ist, dass die geografische Breite als Prädiktorvariable und die Hautkrebssterblichkeit als Reaktion behandelt werden sollte. Nehmen wir an, wir wollen auswerten, ob eine lineare Beziehung zwischen dem Alter des Ehemannes und dem Alter seiner Frau besteht oder nicht. In diesem Fall könnte man das Alter des Ehemanns als Antwort behandeln:
oder man könnte das Alter der Ehefrau als Antwort behandeln:
In Fällen wie diesen, beantworten wir unsere Forschungsfrage nach der Existenz eines linearen Zusammenhangs, indem wir den t-Test zum Testen des Populationskorrelationskoeffizienten H0 verwenden: ρ = 0.
Lassen Sie uns gleich zur Sache kommen! Bei der Durchführung eines Hypothesentests für den Populationskorrelationskoeffizienten ρ folgen wir dem Standardverfahren für Hypothesentests. Zunächst legen wir die Null- und Alternativhypothese fest:
Nullhypothese H0: ρ = 0
Alternativhypothese HA: ρ ≠ 0 oder HA: ρ < 0 oder HA: ρ > 0
Zweitens berechnen wir den Wert der Teststatistik mit folgender Formel:
Teststatistik:
Drittes, wir verwenden die resultierende Teststatistik, um den P-Wert zu berechnen. Wie immer ist der P-Wert die Antwort auf die Frage „Wie wahrscheinlich ist es, dass wir eine so extreme Teststatistik t* erhalten würden, wenn die Nullhypothese wahr wäre?“ Der P-Wert wird mit Hilfe einer t-Verteilung mit n-2 Freiheitsgraden bestimmt.
Schließlich treffen wir eine Entscheidung:
- Wenn der P-Wert kleiner als das Signifikanzniveau α ist, verwerfen wir die Nullhypothese zugunsten der Alternative. Wir schlussfolgern: „Es gibt genügend Evidenz auf dem α-Niveau, um zu schlussfolgern, dass es in der Population eine lineare Beziehung zwischen dem Prädiktor x und der Reaktion y gibt.“
- Wenn der P-Wert größer als das Signifikanzniveau α ist, können wir die Nullhypothese nicht verwerfen. Wir schlussfolgern: „Es gibt nicht genügend Evidenz auf dem α-Niveau, um zu schließen, dass es in der Population eine lineare Beziehung zwischen dem Prädiktor x und der Reaktion y gibt.“
Lassen Sie uns den Hypothesentest für die Daten zum Alter des Ehemanns und der Ehefrau durchführen, bei denen die Stichprobenkorrelation auf der Basis von n = 170 Paaren r = 0,939 ist. Um H0: ρ = 0 gegen die Alternative HA: ρ ≠ 0 zu testen, erhalten wir die folgende Teststatistik:
\
Um den P-Wert zu erhalten, müssen wir die Teststatistik mit einer t-Verteilung mit 168 Freiheitsgraden vergleichen (da 170 – 2 = 168). Insbesondere müssen wir die Wahrscheinlichkeit finden, dass wir eine Teststatistik beobachten würden, die extremer als 35,39 ist, und dann, da wir einen zweiseitigen Test durchführen, die Wahrscheinlichkeit mit 2 multiplizieren. Minitab hilft uns hier:
Die Ausgabe sagt uns, dass die Wahrscheinlichkeit, eine Teststatistik kleiner als 35,39 zu erhalten, größer als 0,999 ist. Daher ist die Wahrscheinlichkeit, eine Test-Statistik größer als 35,39 zu erhalten, kleiner als 0,001. Wie in diesem dargestellt, multiplizieren wir mit 2 und stellen fest, dass der P-Wert kleiner als 0,002 ist. Da der P-Wert klein ist – kleiner als 0,05, sagen wir – können wir die Nullhypothese verwerfen. Es gibt genügend statistische Evidenz auf dem Niveau α = 0,05, um zu schlussfolgern, dass ein signifikanter linearer Zusammenhang zwischen dem Alter des Ehemannes und dem Alter der Ehefrau besteht.
Zufälligerweise können wir statistische Software wie Minitab die ganze Drecksarbeit für uns erledigen lassen. Dabei meldet Minitab:
Anzumerken ist, dass die drei von uns erlernten Hypothesentests zum Testen der Existenz einer linearen Beziehung – der t-Test für H0: β1= 0, der ANOVA F-Test für H0: β1= 0, und der t-Test für H0: ρ = 0 – immer die gleichen Ergebnisse liefern werden. Wenn wir zum Beispiel das Alter des Ehemannes („HAge“) als Antwort und das Alter der Ehefrau („WAge“) als Prädiktor behandeln, ergibt jeder Test einen P-Wert von 0,000… < 0.001:
Und ähnlich, wenn wir das Alter der Frau („WAge“) als Antwort und das Alter des Mannes („HAge“) als Prädiktor behandeln, ergibt jeder Test einen P-Wert von 0,000… < 0,001:
Technisch ist es also egal, welchen Test Sie verwenden, um den P-Wert zu erhalten. Sie werden immer den gleichen P-Wert erhalten. Aber Sie sollten die Ergebnisse des Tests berichten, der für Ihre spezielle Situation sinnvoll ist:
- Wenn eine der Variablen eindeutig als Antwort identifiziert werden kann, berichten Sie, dass Sie einen t-Test oder F-Test durchgeführt haben, um H0 zu testen: β1 = 0. (Macht es Sinn, x zu verwenden, um y vorherzusagen?)
- Wenn es nicht offensichtlich ist, welche Variable die Antwort ist, berichten Sie, dass Sie einen t-Test zum Testen von H0 durchgeführt haben: ρ = 0. (Macht es nur Sinn, nach einer Assoziation zwischen x und y zu suchen?)
Eine letzte Anmerkung … wie immer sollten wir klären, wann es in Ordnung ist, den t-Test zum Testen von H0 zu verwenden: ρ = 0? Die Richtlinien sind eine unkomplizierte Erweiterung der „LINE“-Annahmen für das einfache lineare Regressionsmodell. Es ist in Ordnung:
- Wenn es nicht offensichtlich ist, welche Variable die Antwort ist.
- Wenn die (x, y) Paare eine Zufallsstichprobe aus einer bivariaten Normalpopulation sind.
- Für jedes x sind die y’s normal mit gleichen Varianzen.
- Für jedes y sind die x normal mit gleichen Varianzen.
- Etweder kann y als lineare Funktion von x betrachtet werden.
- Oder kann x als lineare Funktion von y betrachtet werden.
- Die (x, y) Paare sind unabhängig