Articles

Réaliser un test d’hypothèse pour le coefficient de corrélation de population ρ

Posted on

Il y a encore un point sur lequel nous n’avons pas encore insisté dans notre discussion sur le coefficient de corrélation r et le coefficient de détermination r2 – à savoir que les deux mesures résument la force d’une relation linéaire dans des échantillons uniquement. Si nous avions un échantillon différent, nous obtiendrions des corrélations différentes, des valeurs r2 différentes, et donc des conclusions potentiellement différentes. Comme toujours, nous voulons tirer des conclusions sur des populations, et pas seulement sur des échantillons. Pour ce faire, nous devons soit effectuer un test d’hypothèse, soit calculer un intervalle de confiance. Dans cette section, nous apprenons à réaliser un test d’hypothèse pour le coefficient de corrélation de population ρ (la lettre grecque  » rho « ).

Par hasard, où se situe ce sujet parmi les quatre étapes de l’analyse de régression ?

  • Formulation du modèle
  • Estimation du modèle
  • Évaluation du modèle
  • Utilisation du modèle

Il s’agit d’une situation dans laquelle nous utilisons le modèle pour répondre à une question de recherche spécifique, à savoir si une relation linéaire existe ou non entre deux variables quantitatives

En général, un chercheur devrait utiliser le test d’hypothèse pour la corrélation de population ρ pour apprendre une association linéaire entre deux variables, lorsqu’il n’est pas évident de savoir quelle variable doit être considérée comme la réponse. Clarifions ce point à l’aide d’exemples de deux questions de recherche différentes.

Nous avons appris précédemment que pour évaluer s’il existe ou non une relation linéaire entre la mortalité par cancer de la peau et la latitude, nous pouvons effectuer l’un ou l’autre des tests suivants :

  • Test t pour tester H0 : β1= 0
  • Test FANOVA pour tester H0 : β1= 0

C’est parce qu’il est assez évident que la latitude doit être traitée comme la variable prédictive et la mortalité par cancer de la peau comme la réponse. Supposons que nous voulions évaluer si une relation linéaire existe ou non entre l’âge du mari et l’âge de sa femme ? Dans ce cas, on pourrait traiter l’âge du mari comme la réponse :

tracé de l'âge du mari par rapport à l'âge de la femme's age vs wife's age plot

sortie de minitab

ou on pourrait traiter l’âge de la femme comme la réponse :

tracé de l'âge de la femme par rapport à l'âge du mari's age vs husband's age plot

sortie minitab

Dans de tels cas, nous répondons à notre question de recherche concernant l’existence d’une relation linéaire en utilisant le test t pour tester le coefficient de corrélation de population H0 : ρ = 0.

Passons directement à l’action ! Nous suivons les procédures standard de test d’hypothèse pour réaliser un test d’hypothèse pour le coefficient de corrélation de population ρ. Tout d’abord, nous spécifions les hypothèses nulle et alternative :

Hypothèse nulle H0 : ρ = 0
Hypothèse alternative HA : ρ ≠ 0 ou HA : ρ < 0 ou HA : ρ > 0

Deuxièmement, nous calculons la valeur de la statistique de test à l’aide de la formule suivante:

Statistique de test : \(t^*=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\)

Troisièmement, nous utilisons la statistique de test obtenue pour calculer la valeur P. Comme toujours, la valeur P est la réponse à la question suivante : « Quelle est la probabilité que nous obtenions une statistique de test t* aussi extrême que si l’hypothèse nulle était vraie ? » La valeur P est déterminée en se référant à une distribution t avec n-2 degrés de liberté.

Enfin, nous prenons une décision :

  • Si la valeur P est inférieure au niveau de signification α, nous rejetons l’hypothèse nulle en faveur de l’alternative. Nous concluons « il y a suffisamment de preuves au niveau α pour conclure qu’il existe une relation linéaire dans la population entre le prédicteur x et la réponse y. »
  • Si la valeur P est supérieure au niveau de signification α, nous ne rejetons pas l’hypothèse nulle. Nous concluons « qu’il n’y a pas suffisamment de preuves au niveau α pour conclure qu’il existe une relation linéaire dans la population entre le prédicteur x et la réponse y. »

Exécutons le test d’hypothèse sur les données de l’âge du mari et de l’âge de la femme dans lesquelles la corrélation de l’échantillon basée sur n = 170 couples est r = 0,939. Pour tester H0 : ρ = 0 contre l’alternative HA : ρ ≠ 0, nous obtenons la statistique de test suivante :

\

Pour obtenir la valeur P, nous devons comparer la statistique de test à une distribution t avec 168 degrés de liberté (puisque 170 – 2 = 168). En particulier, nous devons trouver la probabilité d’observer une statistique de test plus extrême que 35,39, puis, puisque nous effectuons un test bilatéral, multiplier cette probabilité par 2. Minitab nous aide ici :

sortie de minitab

La sortie nous indique que la probabilité d’obtenir une statistique de test inférieure à 35,39 est supérieure à 0,999. Par conséquent, la probabilité d’obtenir une statistique de test supérieure à 35,39 est inférieure à 0,001. Comme illustré dans cette , nous multiplions par 2 et déterminons que la valeur P est inférieure à 0,002. Puisque la valeur P est faible – inférieure à 0,05, disons – nous pouvons rejeter l’hypothèse nulle. Il existe des preuves statistiques suffisantes au niveau α = 0,05 pour conclure qu’il existe une relation linéaire significative entre l’âge du mari et l’âge de sa femme.

Par hasard, nous pouvons laisser un logiciel statistique comme Minitab faire tout le sale boulot pour nous. Ce faisant, Minitab rapporte :

sortie de Minitab

Il convient de noter que les trois tests d’hypothèse que nous avons appris pour tester l’existence d’une relation linéaire – le test t pour H0 : β1= 0, le test ANOVA F pour H0 : β1= 0, et le test t pour H0 : ρ = 0 – donneront toujours les mêmes résultats. Par exemple, si nous traitons l’âge du mari (« HAge ») comme la réponse et l’âge de la femme (« WAge ») comme le prédicteur, chaque test donne une valeur P de 0,000…. < 0.001:

sortie minitab

Et de la même manière, si nous traitons l’âge de la femme (« WAge ») comme la réponse et l’âge du mari (« HAge ») comme le prédicteur, chaque test donne une valeur P de 0,000…. < 0,001:

sortie de minitab

Techniquement, donc, peu importe le test que vous utilisez pour obtenir la valeur P. Vous obtiendrez toujours la même valeur P. Mais, vous devriez rapporter les résultats du test qui ont un sens pour votre situation particulière :

  • Si l’une des variables peut être clairement identifiée comme la réponse, rapportez que vous avez effectué un test t ou des résultats de test F pour tester H0 : β1 = 0. (Est-il logique d’utiliser x pour prédire y ?
  • S’il n’est pas évident de savoir quelle variable est la réponse, signalez que vous avez effectué un test t pour tester H0 : ρ = 0. (Est-il seulement logique de rechercher une association entre x et y ?)

Une dernière remarque… comme toujours, nous devrions clarifier quand il est correct d’utiliser le test t pour tester H0 : ρ = 0 ? Les directives sont une extension directe des hypothèses « LINE » faites pour le modèle de régression linéaire simple. C’est correct :

  • Lorsqu’il n’est pas évident de savoir quelle variable est la réponse.
  • Lorsque les paires (x, y) sont un échantillon aléatoire d’une population normale à deux variables.
  • Pour chaque x, les y sont normaux avec des variances égales.
  • Pour chaque y, les x sont normaux avec des variances égales.
  • Soit, y peut être considéré comme une fonction linéaire de x.
  • Ou, x peut être considéré comme une fonction linéaire de y.
  • Les paires (x, y) sont indépendantes
  • .

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *