C’è un altro punto che non abbiamo ancora sottolineato nella nostra discussione sul coefficiente di correlazione r e il coefficiente di determinazione r2 – cioè, le due misure riassumono la forza di una relazione lineare solo nei campioni. Se ottenessimo un campione diverso, otterremmo correlazioni diverse, valori di r2 diversi e quindi conclusioni potenzialmente diverse. Come sempre, vogliamo trarre conclusioni sulle popolazioni, non solo sui campioni. Per farlo, dobbiamo condurre un test di ipotesi o calcolare un intervallo di confidenza. In questa sezione, impariamo come condurre un test d’ipotesi per il coefficiente di correlazione della popolazione ρ (la lettera greca “rho”).
Incidentalmente, dove si inserisce questo argomento tra i quattro passi dell’analisi di regressione?
- Formulazione del modello
- Stima del modello
- Valutazione del modello
- Uso del modello
Si tratta di una situazione in cui usiamo il modello per rispondere ad una specifica domanda di ricerca, cioè se esiste o meno una relazione lineare tra due variabili quantitative
In generale, un ricercatore dovrebbe usare il test d’ipotesi per la correlazione della popolazione ρ per conoscere un’associazione lineare tra due variabili, quando non è ovvio quale variabile dovrebbe essere considerata come risposta. Chiariamo questo punto con esempi di due diverse domande di ricerca.
In precedenza abbiamo imparato che per valutare se esiste o meno una relazione lineare tra la mortalità per cancro della pelle e la latitudine, possiamo eseguire uno dei seguenti test:
- t-test per testare H0: β1= 0
- ANOVA F-test per testare H0: β1= 0
Questo perché è abbastanza ovvio che la latitudine dovrebbe essere trattata come variabile predittiva e la mortalità per cancro della pelle come risposta. Supponiamo di voler valutare se esiste o meno una relazione lineare tra l’età del marito e quella della moglie? In questo caso, si potrebbe trattare l’età del marito come risposta:
o si potrebbe trattare l’età della moglie come risposta:
In casi come questi, rispondiamo alla nostra domanda di ricerca sull’esistenza di una relazione lineare utilizzando il t-test per testare il coefficiente di correlazione della popolazione H0: ρ = 0.
Andiamo subito al sodo! Seguiamo le procedure standard di test d’ipotesi nel condurre un test d’ipotesi per il coefficiente di correlazione della popolazione ρ. Innanzitutto, specifichiamo le ipotesi nulla e alternativa:
Ipotesi nulla H0: ρ = 0
Ipotesi alternativa HA: ρ ≠ 0 o HA: ρ < 0 o HA: ρ > 0
In secondo luogo, calcoliamo il valore della statistica del test utilizzando la seguente formula:
Statistica del test:
In terzo luogo, usiamo la statistica di test risultante per calcolare il valore P. Come sempre, il valore P è la risposta alla domanda “quanto è probabile che otterremo una statistica di test t* così estrema come abbiamo fatto se l’ipotesi nulla fosse vera? Il valore P è determinato facendo riferimento a una distribuzione t con n-2 gradi di libertà.
Finalmente, prendiamo una decisione:
- Se il valore P è inferiore al livello di significatività α, rifiutiamo l’ipotesi nulla in favore dell’alternativa. Concludiamo “ci sono prove sufficienti al livello α per concludere che c’è una relazione lineare nella popolazione tra il predittore x e la risposta y.”
- Se il valore P è maggiore del livello di significatività α, non riusciamo a rigettare l’ipotesi nulla. Concludiamo “non c’è abbastanza evidenza al livello α per concludere che c’è una relazione lineare nella popolazione tra il predittore x e la risposta y.”
Eseguiamo il test d’ipotesi sui dati dell’età del marito e della moglie in cui la correlazione del campione basata su n = 170 coppie è r = 0,939. Per testare H0: ρ = 0 contro l’alternativa HA: ρ ≠ 0, otteniamo la seguente statistica di test:
\
Per ottenere il valore P, dobbiamo confrontare la statistica di test con una distribuzione t con 168 gradi di libertà (poiché 170 – 2 = 168). In particolare, dobbiamo trovare la probabilità di osservare una statistica di test più estrema di 35,39, e poi, poiché stiamo conducendo un test a due lati, moltiplicare la probabilità per 2. Minitab ci aiuta qui:
L’output ci dice che la probabilità di ottenere una statistica del test inferiore a 35,39 è maggiore di 0,999. Pertanto, la probabilità di ottenere una test-statistica maggiore di 35,39 è inferiore a 0,001. Come illustrato in questo , moltiplichiamo per 2 e determiniamo che il valore P è inferiore a 0,002. Poiché il valore P è piccolo – inferiore a 0,05, diciamo – possiamo rifiutare l’ipotesi nulla. C’è una prova statistica sufficiente al livello α = 0,05 per concludere che c’è una relazione lineare significativa tra l’età del marito e l’età della moglie.
Incidentalmente, possiamo lasciare che un software statistico come Minitab faccia tutto il lavoro sporco per noi. Così facendo, Minitab riporta:
Si noti che i tre test di ipotesi che abbiamo imparato per verificare l’esistenza di una relazione lineare – il t-test per H0: β1= 0, il test ANOVA F per H0: β1= 0, e il t-test per H0: ρ = 0 – daranno sempre gli stessi risultati. Per esempio, se trattiamo l’età del marito (“HAge”) come risposta e l’età della moglie (“WAge”) come predittore, ogni test produce un valore P di 0,000… < 0.001:
E analogamente, se trattiamo l’età della moglie (“WAge”) come risposta e l’età del marito (“HAge”) come predittore, ogni test produce un valore P di 0,000… < 0.001:
Tecnicamente, quindi, non importa quale test si usa per ottenere il valore P. Otterrete sempre lo stesso valore P. Ma dovreste riportare i risultati del test che hanno senso per la vostra particolare situazione:
- Se una delle variabili può essere chiaramente identificata come risposta, riportate che avete condotto un t-test o un F-test per testare H0: β1 = 0. (Ha senso usare x per prevedere y?)
- Se non è ovvio quale variabile è la risposta, riferite che avete condotto un t-test per testare H0: ρ = 0. (Ha senso solo cercare un’associazione tra x e y?)
Una nota finale … come sempre, dovremmo chiarire quando è giusto usare il t-test per testare H0: ρ = 0? Le linee guida sono una semplice estensione delle ipotesi “LINE” fatte per il modello di regressione lineare semplice. Va bene:
- Quando non è ovvio quale variabile sia la risposta.
- Quando le coppie (x, y) sono un campione casuale da una popolazione normale bivariata.
- Per ogni x, le y sono normali con uguale varianza.
- Per ogni y, le x sono normali con uguale varianza.
- Oppure, y può essere considerata una funzione lineare di x.
- Oppure, x può essere considerata una funzione lineare di y.
- Le coppie (x, y) sono indipendenti