Articles

Realización de una prueba de hipótesis para el coeficiente de correlación de la población ρ

Posted on

Hay un punto más que no hemos destacado todavía en nuestra discusión sobre el coeficiente de correlación r y el coeficiente de determinación r2 – a saber, las dos medidas resumen la fuerza de una relación lineal sólo en las muestras. Si obtuviéramos una muestra diferente, obtendríamos correlaciones diferentes, valores r2 diferentes y, por tanto, conclusiones potencialmente diferentes. Como siempre, queremos sacar conclusiones sobre poblaciones, no sólo sobre muestras. Para ello, tenemos que realizar una prueba de hipótesis o calcular un intervalo de confianza. En esta sección, aprendemos a realizar una prueba de hipótesis para el coeficiente de correlación de la población ρ (la letra griega «rho»).

¿Dónde encaja este tema entre los cuatro pasos del análisis de regresión?

  • Formulación del modelo
  • Estimación del modelo
  • Evaluación del modelo
  • Utilización del modelo
  • Es una situación en la que utilizamos el modelo para responder a una pregunta de investigación concreta, concretamente si existe o no una relación lineal entre dos variables cuantitativas

    En general, un investigador debe utilizar la prueba de hipótesis para la correlación poblacional ρ para conocer una asociación lineal entre dos variables, cuando no es obvio qué variable debe considerarse como la respuesta. Aclaremos este punto con ejemplos de dos preguntas de investigación diferentes.

    Anteriormente aprendimos que para evaluar si existe o no una relación lineal entre la mortalidad por cáncer de piel y la latitud, podemos realizar cualquiera de las siguientes pruebas:

    • Prueba t para probar H0: β1= 0
    • Prueba F de ANOVA para probar H0: β1= 0
    • Eso es porque es bastante obvio que la latitud debe ser tratada como la variable predictora y la mortalidad por cáncer de piel como la respuesta. Supongamos que queremos evaluar si existe o no una relación lineal entre la edad del marido y la de su mujer. En este caso, se podría tratar la edad del marido como la respuesta:

      trazado de la edad del marido frente a la edad de la mujer's age vs wife's age plot

      salida de minitab

      o se podría tratar la edad de la mujer como respuesta:

      trazado de la edad de la esposa frente a la del marido's age vs husband's age plot

      salida de minitab

      En casos como estos, respondemos a nuestra pregunta de investigación sobre la existencia de una relación lineal utilizando la prueba t para probar el coeficiente de correlación poblacional H0: ρ = 0.

      ¡Vamos a empezar! Seguimos los procedimientos estándar de las pruebas de hipótesis al realizar una prueba de hipótesis para el coeficiente de correlación poblacional ρ. Primero, especificamos las hipótesis nula y alternativa:

      Hipótesis nula H0: ρ = 0
      Hipótesis alternativa HA: ρ ≠ 0 o HA: ρ < 0 o HA: ρ > 0

      En segundo lugar, calculamos el valor del estadístico de prueba mediante la siguiente fórmula:

      Estadístico de prueba: \(t^*=\frac{r\cort{n-2}}{\cort{1-r^2}})

      En tercer lugar, utilizamos el estadístico de prueba resultante para calcular el valor P. Como siempre, el valor P es la respuesta a la pregunta «¿qué probabilidad hay de que obtengamos un estadístico de prueba t* tan extremo como el que obtuvimos si la hipótesis nula fuera verdadera?» El valor P se determina haciendo referencia a una distribución t con n-2 grados de libertad.

      Finalmente, tomamos una decisión:

      • Si el valor P es menor que el nivel de significación α, rechazamos la hipótesis nula a favor de la alternativa. Concluimos que «hay suficiente evidencia en el nivel α para concluir que existe una relación lineal en la población entre el predictor x y la respuesta y.»
      • Si el valor P es mayor que el nivel de significación α, no rechazamos la hipótesis nula. Concluimos que «no hay suficiente evidencia en el nivel α para concluir que existe una relación lineal en la población entre el predictor x y la respuesta y.»
        • Realicemos la prueba de hipótesis sobre los datos de la edad del marido y la edad de la mujer en los que la correlación muestral basada en n = 170 parejas es r = 0,939. Para probar H0: ρ = 0 contra la alternativa HA: ρ ≠ 0, obtenemos el siguiente estadístico de prueba:

          Para obtener el valor P, necesitamos comparar el estadístico de prueba con una distribución t con 168 grados de libertad (ya que 170 – 2 = 168). En particular, tenemos que encontrar la probabilidad de que observemos un estadístico de prueba más extremo que 35,39, y luego, ya que estamos realizando una prueba de dos lados, multiplicar la probabilidad por 2. Minitab nos ayuda aquí:

          salida de minitab

          La salida nos dice que la probabilidad de obtener un estadístico de prueba menor que 35,39 es mayor que 0,999. Por lo tanto, la probabilidad de obtener un test-estadístico mayor que 35,39 es menor que 0,001. Como se ilustra en este , multiplicamos por 2 y determinamos que el valor P es inferior a 0,002. Como el valor P es pequeño -menor que 0,05, por ejemplo- podemos rechazar la hipótesis nula. Hay suficiente evidencia estadística en el nivel α = 0,05 para concluir que existe una relación lineal significativa entre la edad del marido y la edad de su mujer.

          Por cierto, podemos dejar que un software estadístico como Minitab haga todo el trabajo sucio por nosotros. Al hacerlo, Minitab informa:

          salida de Minitab

          Hay que tener en cuenta que las tres pruebas de hipótesis que aprendimos para comprobar la existencia de una relación lineal -la prueba t para H0: β1= 0, la prueba F de ANOVA para H0: β1= 0, y la prueba t para H0: ρ = 0 – darán siempre los mismos resultados. Por ejemplo, si tratamos la edad del marido («HAge») como respuesta y la edad de la mujer («WAge») como predictor, cada prueba arroja un valor P de 0,000… < 0.001:

          salida de minitab

          Y de forma similar, si tratamos la edad de la esposa («WAge») como respuesta y la edad del marido («HAge») como predictor, cada prueba arroja un valor P de 0,000… < 0.001:

          salida de minitab

          Técnicamente, entonces, no importa qué prueba utilice para obtener el valor P. Siempre obtendrá el mismo valor P. Pero, debe informar de los resultados de la prueba que tienen sentido para su situación particular:

          • Si una de las variables puede ser claramente identificada como la respuesta, informe de que realizó una prueba t o los resultados de la prueba F para probar H0: β1 = 0. (¿Tiene sentido utilizar x para predecir y?)
          • Si no es obvio qué variable es la respuesta, informe que realizó una prueba t para probar H0: ρ = 0. (¿Sólo tiene sentido buscar una asociación entre x e y?)
          • Una nota final… como siempre, debemos aclarar cuándo está bien utilizar la prueba t para probar H0: ρ = 0? Las directrices son una extensión directa de los supuestos «LINE» realizados para el modelo de regresión lineal simple. Está bien:

            • Cuando no es obvio qué variable es la respuesta.
            • Cuando los pares (x, y) son una muestra aleatoria de una población normal bivariada.
              • Para cada x, las y son normales con varianzas iguales.
              • Para cada y, las x son normales con varianzas iguales.
              • O bien, y puede considerarse una función lineal de x.
              • O bien, x puede considerarse una función lineal de y.
            • Los pares (x, y) son independientes

            .

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *