L’autocorrélation est une caractéristique des données qui montre le degré de similitude entre les valeurs des mêmes variables sur des intervalles de temps successifs. Ce post explique ce qu’est l’autocorrélation, les types d’autocorrélation – autocorrélation positive et négative, ainsi que la façon de diagnostiquer et de tester l’autocorrélation.
Lorsque vous avez une série de chiffres, et qu’il existe un modèle tel que les valeurs de la série peuvent être prédites en fonction des valeurs précédentes de la série, on dit que la série de chiffres présente une autocorrélation. Ce phénomène est également connu sous le nom de corrélation sérielle et de dépendance sérielle. L’existence d’une autocorrélation dans les résidus d’un modèle est un signe que le modèle n’est peut-être pas solide. L’autocorrélation est diagnostiquée à l’aide d’un corrélogramme (tracé ACF) et peut être testée à l’aide du test de Durbin-Watson.
La partie auto de autocorrélation vient du mot grec signifiant soi, et l’autocorrélation désigne des données qui sont corrélées avec elles-mêmes, par opposition à une corrélation avec certaines autres données. Considérez les neuf valeurs de Y ci-dessous. La colonne de droite montre les huit dernières de ces valeurs, déplacées « vers le haut » d’une ligne, la première valeur étant supprimée. Lorsque nous corrélons ces deux colonnes de données, en excluant la dernière observation qui a des valeurs manquantes, la corrélation est de 0,64. Cela signifie que les données sont corrélées avec elles-mêmes (c’est-à-dire que, nous avons une autocorrélation/corrélation sérielle).
Autocorrélation positive et négative
L’exemple ci-dessus présente une autocorrélation de premier ordre positive, où le premier ordre indique que les observations distantes de un sont corrélées, et positif signifie que la corrélation entre les observations est positive. Lorsque des données présentant une corrélation positive de premier ordre sont tracées, les points apparaissent dans une courbe lisse en forme de serpent, comme sur la gauche. Avec une corrélation de premier ordre négative, les points forment un motif en zigzag s’ils sont connectés, comme sur la droite.
Diagnostic de l’autocorrélation à l’aide d’un corrélogramme
Un corrélogramme montre la corrélation d’une série de données avec elle-même ; il est également connu sous le nom de graphe d’autocorrélation et de graphe d’ACF. Le corrélogramme concerne les données présentées ci-dessus. Le décalage fait référence à l’ordre de corrélation. Nous pouvons voir dans ce graphique qu’au décalage 0, la corrélation est de 1, car les données sont corrélées avec elles-mêmes. À un décalage de 1, la corrélation est indiquée comme étant d’environ 0,5 (ceci est différent de la corrélation calculée ci-dessus, car le corrélogramme utilise une formule légèrement différente). Nous pouvons également voir que nous avons des corrélations négatives lorsque les points sont distants de 3, 4 et 5.
Tester l’autocorrélation
L’erreur d’échantillonnage seule signifie que nous verrons généralement une certaine autocorrélation dans tout ensemble de données, un test statistique est donc nécessaire pour exclure la possibilité que l’erreur d’échantillonnage soit la cause de l’autocorrélation. Le test standard pour cela est le test de Durbin-Watson. Ce test ne teste explicitement que la corrélation de premier ordre, mais dans la pratique, il tend à détecter les formes les plus courantes d’autocorrélation, car la plupart des formes d’autocorrélation présentent un certain degré de corrélation de premier ordre.
Les implications de l’autocorrélation
Lorsque l’autocorrélation est détectée dans les résidus d’un modèle, cela suggère que le modèle est mal spécifié (c’est-à-dire, en quelque sorte, erroné). La cause en est qu’il manque une ou plusieurs variables clés dans le modèle. Lorsque les données ont été collectées dans l’espace ou dans le temps, et que le modèle n’en tient pas compte explicitement, l’autocorrélation est probable. Par exemple, si un modèle météorologique est faux dans une banlieue, il sera probablement faux de la même manière dans une banlieue voisine. La solution consiste soit à inclure les variables manquantes, soit à modéliser explicitement l’autocorrélation (par exemple, en utilisant un modèle ARIMA).
L’existence de l’autocorrélation signifie que les erreurs standard calculées, et par conséquent les valeurs p, sont trompeuses.
Sign Up for Displayr