Articles

Przeprowadzenie testu hipotezy dla współczynnika korelacji populacji ρ

Posted on

Jest jeszcze jedna kwestia, której nie podkreśliliśmy w naszej dyskusji o współczynniku korelacji r i współczynniku determinacji r2 – mianowicie, te dwie miary podsumowują siłę liniowej zależności tylko w próbkach. Gdybyśmy uzyskali inną próbkę, otrzymalibyśmy inne korelacje, inne wartości r2, a więc potencjalnie inne wnioski. Jak zawsze, chcemy wyciągnąć wnioski na temat populacji, a nie tylko próbek. Aby to zrobić, musimy albo przeprowadzić test hipotezy, albo obliczyć przedział ufności. W tym rozdziale dowiemy się, jak przeprowadzić test hipotezy dla współczynnika korelacji populacji ρ (grecka litera „rho”).

Nawiasem mówiąc, gdzie ten temat mieści się wśród czterech kroków analizy regresji?

  • Sformułowanie modelu
  • Oszacowanie modelu
  • Ewaluacja modelu
  • Użycie modelu

Jest to sytuacja, w której wykorzystujemy model do odpowiedzi na konkretne pytanie badawcze, czyli czy istnieje zależność liniowa między dwiema zmiennymi ilościowymi

W ogólności, badacz powinien zastosować test hipotezy dla korelacji populacyjnej ρ, aby dowiedzieć się o liniowym związku między dwiema zmiennymi, gdy nie jest oczywiste, którą zmienną należy traktować jako odpowiedź. Wyjaśnijmy ten punkt na przykładzie dwóch różnych pytań badawczych.

Wcześniej dowiedzieliśmy się, że aby ocenić, czy istnieje liniowa zależność między śmiertelnością z powodu raka skóry a szerokością geograficzną, możemy wykonać jeden z poniższych testów:

  • test t dla testowania H0: β1= 0
  • test FANOVA dla testowania H0: β1= 0

Tak jest, ponieważ jest dość oczywiste, że szerokość geograficzną należy traktować jako zmienną predykcyjną, a śmiertelność z powodu raka skóry jako odpowiedź. Załóżmy, że chcemy ocenić, czy istnieje liniowa zależność między wiekiem męża a wiekiem jego żony, czy też nie? W tym przypadku można by potraktować wiek męża jako odpowiedź:

wykres wieku męża vs wiek żony's age vs wife's age plot

wyjście minitab

Albo można by potraktować wiek żony jako odpowiedź:

wykres wieku żony vs wiek męża's age vs husband's age plot

minitab output

W przypadkach takich jak te, odpowiadamy na nasze pytanie badawcze dotyczące istnienia zależności liniowej, stosując test t do testowania współczynnika korelacji populacyjnej H0: ρ = 0.

Skoczmy od razu do tego! Przeprowadzamy standardowe procedury testowania hipotez dla współczynnika korelacji populacji ρ. Po pierwsze, określamy hipotezy zerową i alternatywną:

Hipoteza zerowa H0: ρ = 0
Hipoteza alternatywna HA: ρ ≠ 0 lub HA: ρ < 0 lub HA: ρ > 0

Po drugie, obliczamy wartość statystyki testowej korzystając z następującego wzoru:

Statystyka testowa:

Po trzecie, wykorzystujemy otrzymaną statystykę testową do obliczenia wartości P. Jak zawsze, wartość P jest odpowiedzią na pytanie „jak prawdopodobne jest, że otrzymalibyśmy statystykę testową t* tak skrajną jak ta, którą otrzymaliśmy, gdyby hipoteza zerowa była prawdziwa?”. Wartość P wyznaczamy, odwołując się do rozkładu t z n-2 stopniami swobody.

W końcu podejmujemy decyzję:

  • Jeśli wartość P jest mniejsza od poziomu istotności α, odrzucamy hipotezę zerową na rzecz alternatywnej. Stwierdzamy, że „istnieją wystarczające dowody na poziomie α, aby stwierdzić, że w populacji istnieje liniowa zależność między predyktorem x a odpowiedzią y.”
  • Jeśli wartość P jest większa niż poziom istotności α, nie odrzucamy hipotezy zerowej. Stwierdzamy, że „nie ma wystarczających dowodów na poziomie α, aby stwierdzić, że istnieje liniowa zależność w populacji między predyktorem x a odpowiedzią y.”

Przeprowadźmy test hipotezy na danych dotyczących wieku męża i wieku żony, w których korelacja próby oparta na n = 170 parach wynosi r = 0,939. Aby przetestować H0: ρ = 0 względem alternatywy HA: ρ ≠ 0, otrzymujemy następującą statystykę testową:

Aby otrzymać wartość P, musimy porównać statystykę testową do rozkładu t o 168 stopniach swobody (ponieważ 170 – 2 = 168). W szczególności musimy znaleźć prawdopodobieństwo, że zaobserwujemy statystykę testową bardziej skrajną niż 35,39, a następnie, ponieważ przeprowadzamy test dwustronny, pomnożyć to prawdopodobieństwo przez 2. Pomoże nam w tym program Minitab:

minitab output

Wyjście mówi nam, że prawdopodobieństwo uzyskania statystyki testowej mniejszej niż 35,39 jest większe niż 0,999. Dlatego prawdopodobieństwo uzyskania statystyki testowej większej niż 35,39 jest mniejsze niż 0,001. Jak pokazano w tym , mnożymy przez 2 i określamy, że wartość P jest mniejsza niż 0,002. Ponieważ wartość P jest mała – mniejsza niż 0,05, powiedzmy – możemy odrzucić hipotezę zerową. Istnieją wystarczające dowody statystyczne na poziomie α = 0,05, aby stwierdzić, że istnieje istotna zależność liniowa między wiekiem męża a wiekiem jego żony.

Nawiasem mówiąc, możemy pozwolić, aby oprogramowanie statystyczne, takie jak Minitab, wykonało za nas całą brudną robotę. W tym celu program Minitab zgłasza:

minitab output

Należy zauważyć, że trzy testy hipotez, które poznaliśmy w celu sprawdzenia istnienia zależności liniowej – test t dla H0: β1= 0, test ANOVA F dla H0: β1= 0 oraz test t dla H0: ρ = 0 – zawsze dadzą takie same wyniki. Na przykład, jeśli potraktujemy wiek męża („HAge”) jako odpowiedź, a wiek żony („WAge”) jako predyktor, każdy test da wartość P równą 0,000… < 0.001:

minitab output

I podobnie, jeśli potraktujemy wiek żony („WAge”) jako odpowiedź, a wiek męża („HAge”) jako predyktor, każdy test daje P-value równe 0.000…. < 0.001:

minitab output

Technicznie rzecz biorąc, nie ma znaczenia, jakiego testu użyjesz do uzyskania wartości P. Zawsze otrzymasz tę samą wartość P. Ale powinieneś zgłosić wyniki testu, które mają sens w Twojej konkretnej sytuacji:

  • Jeśli jedna ze zmiennych może być wyraźnie zidentyfikowana jako odpowiedź, zgłoś, że przeprowadziłeś test t lub F w celu przetestowania H0: β1 = 0. (Czy ma sens użycie x do przewidywania y?)
  • Jeśli nie jest oczywiste, która zmienna jest odpowiedzią, raportuj, że przeprowadziłeś test t dla testowania H0: ρ = 0. (Czy ma sens tylko szukanie związku między x i y?)

Jedna ostatnia uwaga … jak zawsze, powinniśmy wyjaśnić, kiedy jest w porządku używać testu t dla testowania H0: ρ = 0? Wytyczne są prostym rozszerzeniem założeń „LINE” wykonanych dla prostego modelu regresji liniowej. To jest w porządku:

  • Gdy nie jest oczywiste, która zmienna jest odpowiedzią.
  • Gdy pary (x, y) są próbką losową z dwuczynnikowej normalnej populacji.
    • Dla każdego x, y są normalne z równymi wariancjami.
    • Dla każdego y, wartości x są normalne z równymi wariancjami.
    • Albo, y może być uważane za liniową funkcję x.
    • Albo, x może być uważane za liniową funkcję y.
  • Pary (x, y) są niezależne

.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *