Articles

Condurre un test di ipotesi per il coefficiente di correlazione della popolazione ρ

Posted on

C’è un altro punto che non abbiamo ancora sottolineato nella nostra discussione sul coefficiente di correlazione r e il coefficiente di determinazione r2 – cioè, le due misure riassumono la forza di una relazione lineare solo nei campioni. Se ottenessimo un campione diverso, otterremmo correlazioni diverse, valori di r2 diversi e quindi conclusioni potenzialmente diverse. Come sempre, vogliamo trarre conclusioni sulle popolazioni, non solo sui campioni. Per farlo, dobbiamo condurre un test di ipotesi o calcolare un intervallo di confidenza. In questa sezione, impariamo come condurre un test d’ipotesi per il coefficiente di correlazione della popolazione ρ (la lettera greca “rho”).

Incidentalmente, dove si inserisce questo argomento tra i quattro passi dell’analisi di regressione?

  • Formulazione del modello
  • Stima del modello
  • Valutazione del modello
  • Uso del modello

Si tratta di una situazione in cui usiamo il modello per rispondere ad una specifica domanda di ricerca, cioè se esiste o meno una relazione lineare tra due variabili quantitative

In generale, un ricercatore dovrebbe usare il test d’ipotesi per la correlazione della popolazione ρ per conoscere un’associazione lineare tra due variabili, quando non è ovvio quale variabile dovrebbe essere considerata come risposta. Chiariamo questo punto con esempi di due diverse domande di ricerca.

In precedenza abbiamo imparato che per valutare se esiste o meno una relazione lineare tra la mortalità per cancro della pelle e la latitudine, possiamo eseguire uno dei seguenti test:

  • t-test per testare H0: β1= 0
  • ANOVA F-test per testare H0: β1= 0

Questo perché è abbastanza ovvio che la latitudine dovrebbe essere trattata come variabile predittiva e la mortalità per cancro della pelle come risposta. Supponiamo di voler valutare se esiste o meno una relazione lineare tra l’età del marito e quella della moglie? In questo caso, si potrebbe trattare l’età del marito come risposta:

trama dell'età del marito rispetto all'età della moglie's age vs wife's age plot

uscita minitab

o si potrebbe trattare l’età della moglie come risposta:

trama età della moglie vs età del marito's age vs husband's age plot

minitab output

In casi come questi, rispondiamo alla nostra domanda di ricerca sull’esistenza di una relazione lineare utilizzando il t-test per testare il coefficiente di correlazione della popolazione H0: ρ = 0.

Andiamo subito al sodo! Seguiamo le procedure standard di test d’ipotesi nel condurre un test d’ipotesi per il coefficiente di correlazione della popolazione ρ. Innanzitutto, specifichiamo le ipotesi nulla e alternativa:

Ipotesi nulla H0: ρ = 0
Ipotesi alternativa HA: ρ ≠ 0 o HA: ρ < 0 o HA: ρ > 0

In secondo luogo, calcoliamo il valore della statistica del test utilizzando la seguente formula:

Statistica del test:

In terzo luogo, usiamo la statistica di test risultante per calcolare il valore P. Come sempre, il valore P è la risposta alla domanda “quanto è probabile che otterremo una statistica di test t* così estrema come abbiamo fatto se l’ipotesi nulla fosse vera? Il valore P è determinato facendo riferimento a una distribuzione t con n-2 gradi di libertà.

Finalmente, prendiamo una decisione:

  • Se il valore P è inferiore al livello di significatività α, rifiutiamo l’ipotesi nulla in favore dell’alternativa. Concludiamo “ci sono prove sufficienti al livello α per concludere che c’è una relazione lineare nella popolazione tra il predittore x e la risposta y.”
  • Se il valore P è maggiore del livello di significatività α, non riusciamo a rigettare l’ipotesi nulla. Concludiamo “non c’è abbastanza evidenza al livello α per concludere che c’è una relazione lineare nella popolazione tra il predittore x e la risposta y.”

Eseguiamo il test d’ipotesi sui dati dell’età del marito e della moglie in cui la correlazione del campione basata su n = 170 coppie è r = 0,939. Per testare H0: ρ = 0 contro l’alternativa HA: ρ ≠ 0, otteniamo la seguente statistica di test:

\

Per ottenere il valore P, dobbiamo confrontare la statistica di test con una distribuzione t con 168 gradi di libertà (poiché 170 – 2 = 168). In particolare, dobbiamo trovare la probabilità di osservare una statistica di test più estrema di 35,39, e poi, poiché stiamo conducendo un test a due lati, moltiplicare la probabilità per 2. Minitab ci aiuta qui:

minitab output

L’output ci dice che la probabilità di ottenere una statistica del test inferiore a 35,39 è maggiore di 0,999. Pertanto, la probabilità di ottenere una test-statistica maggiore di 35,39 è inferiore a 0,001. Come illustrato in questo , moltiplichiamo per 2 e determiniamo che il valore P è inferiore a 0,002. Poiché il valore P è piccolo – inferiore a 0,05, diciamo – possiamo rifiutare l’ipotesi nulla. C’è una prova statistica sufficiente al livello α = 0,05 per concludere che c’è una relazione lineare significativa tra l’età del marito e l’età della moglie.

Incidentalmente, possiamo lasciare che un software statistico come Minitab faccia tutto il lavoro sporco per noi. Così facendo, Minitab riporta:

minitab output

Si noti che i tre test di ipotesi che abbiamo imparato per verificare l’esistenza di una relazione lineare – il t-test per H0: β1= 0, il test ANOVA F per H0: β1= 0, e il t-test per H0: ρ = 0 – daranno sempre gli stessi risultati. Per esempio, se trattiamo l’età del marito (“HAge”) come risposta e l’età della moglie (“WAge”) come predittore, ogni test produce un valore P di 0,000… < 0.001:

E analogamente, se trattiamo l’età della moglie (“WAge”) come risposta e l’età del marito (“HAge”) come predittore, ogni test produce un valore P di 0,000… < 0.001:

minitab output

Tecnicamente, quindi, non importa quale test si usa per ottenere il valore P. Otterrete sempre lo stesso valore P. Ma dovreste riportare i risultati del test che hanno senso per la vostra particolare situazione:

  • Se una delle variabili può essere chiaramente identificata come risposta, riportate che avete condotto un t-test o un F-test per testare H0: β1 = 0. (Ha senso usare x per prevedere y?)
  • Se non è ovvio quale variabile è la risposta, riferite che avete condotto un t-test per testare H0: ρ = 0. (Ha senso solo cercare un’associazione tra x e y?)

Una nota finale … come sempre, dovremmo chiarire quando è giusto usare il t-test per testare H0: ρ = 0? Le linee guida sono una semplice estensione delle ipotesi “LINE” fatte per il modello di regressione lineare semplice. Va bene:

  • Quando non è ovvio quale variabile sia la risposta.
  • Quando le coppie (x, y) sono un campione casuale da una popolazione normale bivariata.
    • Per ogni x, le y sono normali con uguale varianza.
    • Per ogni y, le x sono normali con uguale varianza.
    • Oppure, y può essere considerata una funzione lineare di x.
    • Oppure, x può essere considerata una funzione lineare di y.
  • Le coppie (x, y) sono indipendenti

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *