Articles

Multicollinéarité : Définition, causes, exemples

Posted on
Share on

Définitions des statistiques > Multicollinéarité

Qu’est-ce que la multicollinéarité ?

multicollinéarité

La multicollinéarité peut affecter négativement vos résultats de régression.

La multicollinéarité se produit généralement lorsqu’il existe des corrélations élevées entre deux variables prédicteurs ou plus. En d’autres termes, une variable prédictive peut être utilisée pour prédire l’autre. Cela crée des informations redondantes, ce qui biaise les résultats d’un modèle de régression. Voici des exemples de variables prédicteurs corrélées (également appelées prédicteurs multicollinéaires) : la taille et le poids d’une personne, l’âge et le prix de vente d’une voiture, ou encore les années d’études et le revenu annuel.

Une façon simple de détecter la multicollinéarité est de calculer les coefficients de corrélation pour toutes les paires de variables prédicteurs. Si le coefficient de corrélation, r, est exactement +1 ou -1, on parle de multicollinéarité parfaite. Si r est proche de -1 ou +1 ou exactement -1 ou +1, l’une des variables doit être retirée du modèle dans la mesure du possible.


Il est plus fréquent que la multicollinéarité se manifeste dans les études d’observation ; elle est moins fréquente avec les données expérimentales. Lorsque cette condition est présente, elle peut entraîner des estimations de régression instables et peu fiables. Plusieurs autres problèmes peuvent interférer avec l’analyse des résultats, notamment :

  • La statistique t sera généralement très petite et les intervalles de confiance des coefficients seront très larges. Cela signifie qu’il est plus difficile de rejeter l’hypothèse nulle.
  • Le coefficient de régression partielle peut être une estimation imprécise ; les erreurs standard peuvent être très importantes.
  • Les coefficients de régression partielle peuvent présenter des changements de signe et/ou d’amplitude lorsqu’ils passent d’un échantillon à l’autre.
  • La multicollinéarité rend difficile l’évaluation de l’effet des variables indépendantes sur les variables dépendantes.

Qu’est-ce qui cause la multicollinéarité ?

Les deux types sont :


  • Multicollinéarité basée sur les données : causée par des expériences mal conçues, des données 100% observationnelles ou des méthodes de collecte de données non manipulables. Dans certains cas, les variables peuvent être fortement corrélées (généralement en raison de la collecte de données provenant d’études purement observationnelles) et il n’y a aucune erreur de la part du chercheur. Pour cette raison, vous devez mener des expériences chaque fois que possible, en fixant à l’avance le niveau des variables prédicteurs.
  • Multicolinéarité structurelle : causée par vous, le chercheur, qui créez de nouvelles variables prédicteurs.

Les causes de la multicollinéarité peuvent également inclure :

  • Des données insuffisantes. Dans certains cas, la collecte de données supplémentaires peut résoudre le problème.
  • Les variables fictives peuvent être utilisées de manière incorrecte. Par exemple, le chercheur peut omettre d’exclure une catégorie, ou ajouter une variable fictive pour chaque catégorie (par exemple, printemps, été, automne, hiver).
  • Inclure une variable dans la régression qui est en fait une combinaison de deux autres variables. Par exemple, inclure le « revenu total des investissements » alors que le revenu total des investissements = revenu des actions et des obligations + revenu des intérêts de l’épargne.
  • Inclure deux variables identiques (ou presque identiques). Par exemple, le poids en livres et le poids en kilos, ou le revenu des investissements et le revenu de l’épargne/des obligations.
  • Suivant : Les facteurs d’inflation de la variance.

    Beyer, W. H. CRC Standard Mathematical Tables, 31st ed. Boca Raton, FL : CRC Press, pp. 536 et 571, 2002.
    Dodge, Y. (2008). L’encyclopédie concise de la statistique. Springer.
    Klein, G. (2013). L’introduction cartoonesque à la statistique. Hill & Wamg.
    Vogt, W.P. (2005). Dictionnaire de la statistique & Méthodologie : Un guide non technique pour les sciences sociales. SAGE.

    CITER CE QUI SUIT :
    Stephanie Glen. « Multicollinéarité : Définition, causes, exemples » de StatisticsHowTo.com : Des statistiques élémentaires pour le reste d’entre nous ! https://www.statisticshowto.com/multicollinearity/

    ——————————————————————————

    Vous avez besoin d’aide pour un devoir ou une question de test ? Avec Chegg Study, vous pouvez obtenir des solutions étape par étape à vos questions de la part d’un expert dans le domaine. Vos 30 premières minutes avec un tuteur Chegg sont gratuites !

    Commentaires ? Vous avez besoin de poster une correction ? Veuillez poster un commentaire sur notre page Facebook.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *