Articles

Hypothesetoets uitvoeren voor de correlatiecoëfficiënt van de populatie ρ

Posted on

Er is nog een punt dat we nog niet hebben benadrukt in onze discussie over de correlatiecoëfficiënt r en de determinatiecoëfficiënt r2 – namelijk dat de twee maten alleen de sterkte van een lineair verband in steekproeven samenvatten. Als we een andere steekproef zouden nemen, zouden we andere correlaties krijgen, andere r2-waarden, en dus mogelijk andere conclusies. Zoals altijd willen wij conclusies trekken over populaties, niet alleen over steekproeven. Om dat te doen, moeten wij ofwel een hypothesetest uitvoeren, ofwel een betrouwbaarheidsinterval berekenen. In deze paragraaf leren we hoe we een hypothesetest kunnen uitvoeren voor de correlatiecoëfficiënt ρ (de griekse letter “rho”)

Incidenteel, waar past dit onderwerp in de vier stappen van regressieanalyse?

  • Modelformulering
  • Modelschatting
  • Modelevaluatie
  • Modelgebruik

Het is een situatie waarin we het model gebruiken om een specifieke onderzoeksvraag te beantwoorden, namelijk of er al dan niet een lineair verband bestaat tussen twee kwantitatieve variabelen

In het algemeen, moet een onderzoeker de hypothesetest voor de populatiecorrelatie ρ gebruiken om te weten te komen of er een lineair verband bestaat tussen twee variabelen, wanneer het niet duidelijk is welke variabele als antwoord moet worden beschouwd. Laten we dit punt verduidelijken met voorbeelden van twee verschillende onderzoeksvragen.

We hebben eerder geleerd dat we, om te beoordelen of er al dan niet een lineair verband bestaat tussen huidkankersterfte en breedtegraad, een van de volgende tests kunnen uitvoeren:

  • t-test voor het testen van H0: β1= 0
  • ANOVA F-test voor het testen van H0: β1= 0

Dat komt omdat het tamelijk voor de hand ligt dat de breedtegraad als de voorspellende variabele moet worden behandeld en de huidkankersterfte als de respons. Stel dat we willen nagaan of er al dan niet een lineair verband bestaat tussen de leeftijd van de echtgenoot en de leeftijd van zijn vrouw? In dat geval zou men de leeftijd van de echtgenoot als antwoordvariabele kunnen nemen:

man's leeftijd vs vrouw's leeftijd plot's age vs wife's age plot

minitab-uitvoer

of men kan de leeftijd van de vrouw als antwoord behandelen:

leeftijd vrouw vs leeftijd man plot's age vs husband's age plot

minitab output

In gevallen als deze, beantwoorden we onze onderzoeksvraag over het bestaan van een lineair verband door de t-toets te gebruiken voor het testen van de correlatiecoëfficiënt van de populatie H0: ρ = 0.

Laten we er maar meteen mee beginnen! Wij volgen de standaardprocedures voor het uitvoeren van een hypothesetest voor de correlatiecoëfficiënt ρ. Eerst specificeren we de nulhypothese en de alternatieve hypothese:

Nulhypothese H0: ρ = 0
Alternatieve hypothese HA: ρ ≠ 0 of HA: ρ < 0 of HA: ρ > 0

Tweede berekenen we de waarde van de teststatistiek met de volgende formule:

Teststatistiek: \t^*=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}})

Drie, we gebruiken de resulterende teststatistiek om de P-waarde te berekenen. Zoals altijd is de P-waarde het antwoord op de vraag “hoe groot is de kans dat we een even extreme teststatistiek t* zouden krijgen als de nulhypothese waar was?” De P-waarde wordt bepaald door te verwijzen naar een t-verdeling met n-2 vrijheidsgraden.

Ten slotte nemen we een beslissing:

  • Als de P-waarde kleiner is dan het significantieniveau α, verwerpen we de nulhypothese ten gunste van het alternatief. We concluderen “er is voldoende bewijs op het niveau α om te concluderen dat er in de populatie een lineair verband bestaat tussen de voorspeller x en de respons y.”
  • Als de P-waarde groter is dan het significantieniveau α, verwerpen we de nulhypothese niet. We concluderen “er is niet genoeg bewijs op het niveau α om te concluderen dat er in de populatie een lineair verband bestaat tussen de voorspeller x en de respons y.”

Laten we de hypothesetest uitvoeren op de gegevens over de leeftijd van de man en de leeftijd van de vrouw, waarbij de steekproefcorrelatie op basis van n = 170 paren r = 0,939 is. Om H0: ρ = 0 te toetsen tegen het alternatief HA: ρ ≠ 0, krijgen we de volgende teststatistiek:

Om de P-waarde te verkrijgen moeten we de teststatistiek vergelijken met een t-verdeling met 168 vrijheidsgraden (want 170 – 2 = 168). In het bijzonder moeten we de kans bepalen dat we een testgrootheid zouden waarnemen die extremer is dan 35,39 en vervolgens, aangezien we een tweezijdige test uitvoeren, de kans met 2 vermenigvuldigen. Minitab helpt ons hierbij:

minitab-uitvoer

De uitvoer vertelt ons dat de kans dat we een test-statistiek krijgen die kleiner is dan 35,39, groter is dan 0,999. Daarom is de kans op een test-statistiek groter dan 35,39 kleiner dan 0,001. Zoals geïllustreerd in deze , vermenigvuldigen we met 2 en bepalen we dat de P-waarde kleiner is dan 0,002. Aangezien de P-waarde klein is – kleiner dan 0,05, laten we zeggen – kunnen we de nulhypothese verwerpen. Er is voldoende statistisch bewijs op het niveau α = 0,05 om te concluderen dat er een significant lineair verband bestaat tussen de leeftijd van een man en de leeftijd van zijn vrouw.

Het toeval wil dat we statistische software zoals Minitab al het vuile werk voor ons kunnen laten opknappen. Daarbij rapporteert Minitab:

minitab-uitvoer

Opgemerkt moet worden dat de drie hypothesetests die we hebben geleerd voor het testen van het bestaan van een lineair verband – de t-test voor H0: β1= 0, de ANOVA F-test voor H0: β1= 0, en de t-test voor H0: ρ = 0 – altijd dezelfde resultaten zullen opleveren. Als we bijvoorbeeld de leeftijd van de echtgenoot (“HAge”) als antwoord en de leeftijd van de echtgenote (“WAge”) als voorspeller beschouwen, levert elke test een P-waarde van 0,000 op… < 0.001:

minitab-uitvoer

Ook als we de leeftijd van de vrouw (“WAge”) als antwoord behandelen en de leeftijd van de man (“HAge”) als voorspeller, levert elke test een P-waarde van 0,000 op… < 0.001:

minitab-uitvoer

Technisch gezien maakt het dus niet uit welke test je gebruikt om de P-waarde te verkrijgen. U krijgt altijd dezelfde P-waarde. Maar u moet de resultaten van de test rapporteren die voor uw specifieke situatie zinvol zijn:

  • Als een van de variabelen duidelijk als respons kan worden geïdentificeerd, rapporteer dan dat u een t-test of F-test hebt uitgevoerd voor het testen van H0: β1 = 0. (Is het zinvol om x te gebruiken om y te voorspellen?
  • Als het niet duidelijk is welke variabele de respons is, rapporteer dan dat u een t-test hebt uitgevoerd voor het testen van H0: ρ = 0. (Heeft het alleen zin om te zoeken naar een associatie tussen x en y?)

Een laatste opmerking … zoals altijd moeten we verduidelijken wanneer het in orde is om de t-test te gebruiken voor het testen van H0: ρ = 0? De richtlijnen zijn een eenvoudige uitbreiding van de “LINE”-aannamen die voor het eenvoudige lineaire regressiemodel zijn gemaakt. Het mag:

  • Wanneer het niet duidelijk is welke variabele de respons is.
  • Wanneer de (x, y) paren een aselecte steekproef zijn uit een bivariate normale populatie.
    • Voor elke x zijn de y’s normaal met gelijke varianties.
    • Voor elke y zijn de x’en normaal met gelijke varianties.
    • Ofwel, y kan worden beschouwd als een lineaire functie van x.
    • Ofwel, x kan worden beschouwd als een lineaire functie van y.
  • De (x, y) paren zijn onafhankelijk

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *