L’autocorrelazione è una caratteristica dei dati che mostra il grado di somiglianza tra i valori delle stesse variabili in intervalli di tempo successivi. Questo post spiega cos’è l’autocorrelazione, i tipi di autocorrelazione – autocorrelazione positiva e negativa, e come diagnosticare e testare l’autocorrelazione.
Quando si ha una serie di numeri e c’è un modello tale che i valori della serie possono essere previsti in base ai valori precedenti della serie, si dice che la serie di numeri presenta un’autocorrelazione. Questo è anche conosciuto come correlazione seriale e dipendenza seriale. L’esistenza dell’autocorrelazione nei residui di un modello è un segno che il modello può non essere solido. L’autocorrelazione è diagnosticata usando un correlogramma (grafico ACF) e può essere testata usando il test di Durbin-Watson.
La parte auto di autocorrelazione viene dalla parola greca per sé, e autocorrelazione significa dati che sono correlati con se stessi, invece di essere correlati con qualche altro dato. Considerate i nove valori di Y qui sotto. La colonna a destra mostra gli ultimi otto di questi valori, spostati “in alto” di una riga, con il primo valore cancellato. Quando correliamo queste due colonne di dati, escludendo l’ultima osservazione che ha valori mancanti, la correlazione è 0,64. Questo significa che i dati sono correlati con se stessi (es, abbiamo autocorrelazione/correlazione seriale).
Autocorrelazione positiva e negativa
L’esempio precedente mostra un’autocorrelazione di primo ordine positiva, dove il primo ordine indica che le osservazioni che sono distanti tra loro sono correlate, e positivo significa che la correlazione tra le osservazioni è positiva. Quando i dati che mostrano una correlazione di primo ordine positiva sono tracciati, i punti appaiono in una curva liscia come un serpente, come a sinistra. Con una correlazione di primo ordine negativa, i punti formano un modello a zig zag se collegati, come mostrato sulla destra.
Diagnosticare l’autocorrelazione usando un correlogramma
Un correlogramma mostra la correlazione di una serie di dati con se stessa; è anche conosciuto come un grafico di autocorrelazione e un grafico ACF. Il correlogramma è per i dati mostrati sopra. Il ritardo si riferisce all’ordine di correlazione. Possiamo vedere in questo grafico che a ritardo 0, la correlazione è 1, poiché i dati sono correlati con se stessi. Con un ritardo di 1, la correlazione è mostrata come circa 0,5 (questo è diverso dalla correlazione calcolata sopra, poiché il correlogramma usa una formula leggermente diversa). Possiamo anche vedere che abbiamo correlazioni negative quando i punti sono distanti 3, 4 e 5.
Testare l’autocorrelazione
L’errore di campionamento da solo significa che tipicamente vedremo una certa autocorrelazione in qualsiasi serie di dati, quindi è necessario un test statistico per escludere la possibilità che l’errore di campionamento sia la causa dell’autocorrelazione. Il test standard per questo è il test Durbin-Watson. Questo test verifica esplicitamente solo la correlazione di primo ordine, ma in pratica tende a rilevare le forme più comuni di autocorrelazione, poiché la maggior parte delle forme di autocorrelazione presenta un certo grado di correlazione di primo ordine.
Le implicazioni dell’autocorrelazione
Quando viene rilevata l’autocorrelazione nei residui di un modello, ciò suggerisce che il modello è mal specificato (cioè, in qualche senso sbagliato). Una causa è che una o più variabili chiave mancano dal modello. Se i dati sono stati raccolti nello spazio o nel tempo e il modello non tiene esplicitamente conto di questo, è probabile che ci sia autocorrelazione. Per esempio, se un modello meteorologico è sbagliato in un sobborgo, probabilmente sarà sbagliato allo stesso modo in un sobborgo vicino. La soluzione è includere le variabili mancanti o modellare esplicitamente l’autocorrelazione (per esempio, usando un modello ARIMA).
L’esistenza dell’autocorrelazione significa che gli errori standard calcolati, e di conseguenza i valori p, sono fuorvianti.
Sign Up for Displayr