Há mais um ponto que ainda não sublinhámos na nossa discussão sobre o coeficiente de correlação r e o coeficiente de determinação r2 – nomeadamente, as duas medidas resumem a força de uma relação linear apenas em amostras. Se obtivéssemos uma amostra diferente, obteríamos correlações diferentes, valores r2 diferentes e, portanto, conclusões potencialmente diferentes. Como sempre, queremos tirar conclusões sobre populações, e não apenas amostras. Para tal, ou temos de realizar um teste de hipóteses ou calcular um intervalo de confiança. Nesta secção, aprendemos a conduzir um teste de hipóteses para o coeficiente de correlação populacional ρ (a letra grega “rho”).
Incidentemente, onde se enquadra este tópico entre as quatro etapas de análise de regressão?
- Formulação do modelo
- Estimativa do modelo
- Avaliação do modelo
- Utilização do modelo
É uma situação em que utilizamos o modelo para responder a uma questão de investigação específica, nomeadamente se existe ou não uma relação linear entre duas variáveis quantitativas
Em geral, um investigador deve utilizar o teste de hipóteses para a correlação populacional ρ para aprender uma associação linear entre duas variáveis, quando não é óbvio qual a variável que deve ser considerada como a resposta. Vamos esclarecer este ponto com exemplos de duas questões de investigação diferentes.
Aprendemos anteriormente que para avaliar se existe ou não uma relação linear entre a mortalidade do cancro de pele e a latitude, podemos realizar um dos seguintes testes:
- teste t para testar H0: β1= 0
- teste F deANOVA para testar H0: β1= 0
Isso porque é bastante óbvio que a latitude deve ser tratada como a variável preditora e a mortalidade do cancro de pele como a resposta. Suponhamos que queremos avaliar se existe ou não uma relação linear entre a idade do marido e a idade da mulher? Neste caso, poder-se-ia tratar a idade do marido como a resposta:
ou pode-se tratar a idade da mulher como a resposta:
Em casos como estes, respondemos à nossa pergunta de investigação sobre a existência de uma relação linear, utilizando o teste t para testar o coeficiente de correlação populacional H0: ρ = 0.
P>Pulemos directamente para ele! Seguimos os procedimentos de teste de hipóteses padrão na realização de um teste de hipóteses para o coeficiente de correlação da população ρ. Primeiro, especificamos as hipóteses nulas e alternativas:
hipótese nula H0: ρ = 0
Hipótese alternativa HA: ρ ≠ 0 ou HA: ρ < 0 ou HA: ρ > 0
Segundo, calculamos o valor da estatística do teste usando a seguinte fórmula:
estatística do teste: \(t^*==frac{r\sqrt{n-2}}{sqrt{1-r^2}}}}
Terceiro, utilizamos a estatística do teste resultante para calcular o valor P. Como sempre, o valor P é a resposta à pergunta “qual é a probabilidade de obtermos uma estatística de teste t* tão extrema como se a hipótese nula fosse verdadeira”? O valor P é determinado por referência a uma distribuição t com n-2 graus de liberdade.
Finalmente, tomamos uma decisão:
- Se o valor P for menor do que o nível de significância α, rejeitamos a hipótese nula em favor da alternativa. Concluímos “há provas suficientes ao nível α para concluir que existe uma relação linear na população entre o preditor x e a resposta y”
- Se o valor P for maior do que o nível de significância α, não rejeitamos a hipótese nula. Concluímos “não há evidência suficiente ao nível de α para concluir que existe uma relação linear na população entre o preditor x e a resposta y”
P>Vamos realizar o teste de hipóteses sobre a idade do marido e os dados de idade da esposa em que a correlação da amostra baseada em n = 170 casais é r = 0,939. Para testar H0: ρ = 0 contra o HA alternativo: ρ ≠ 0, obtemos a seguinte estatística do teste:
\
Para obter o valor P, precisamos de comparar a estatística do teste com uma distribuição t com 168 graus de liberdade (desde 170 – 2 = 168). Em particular, precisamos de encontrar a probabilidade de observarmos uma estatística de teste mais extrema do que 35,39, e depois, uma vez que estamos a realizar um teste em duas faces, multiplicar a probabilidade por 2. O Minitab ajuda-nos aqui:
A saída diz-nos que a probabilidade de obter uma estatística de teste inferior a 35,39 é superior a 0,999. Portanto, a probabilidade de obter uma estatística de teste superior a 35,39 é inferior a 0,001. Como ilustrado neste , multiplicamos por 2 e determinamos que o valor de P é inferior a 0,002. Uma vez que o valor P é pequeno – inferior a 0,05, digamos – podemos rejeitar a hipótese nula. Existe evidência estatística suficiente ao nível α = 0,05 para concluir que existe uma relação linear significativa entre a idade do marido e a idade da mulher.
Inicialmente, podemos deixar software estatístico como o Minitab fazer todo o trabalho sujo por nós. Ao fazê-lo, o Minitab relata:
Deve notar-se que os três testes de hipóteses que aprendemos para testar a existência de uma relação linear – o teste t para H0: β1= 0, o teste F da ANOVA para H0: β1= 0, e o teste t para H0: ρ = 0 – produzirá sempre os mesmos resultados. Por exemplo, se tratarmos a idade do marido (“HAge”) como a resposta e a idade da esposa (“WAge”) como o preditor, cada teste produz um valor P de 0,000… < 0.001:
E de forma semelhante, se tratarmos a idade da esposa (“WAge”) como resposta e a idade do marido (“HAge”) como preditor, cada teste produz um P-valor de 0,000… < 0.001:
Tecnicamente, então, não importa qual o teste que se usa para obter o valor P. Obterá sempre o mesmo valor P. Mas, deve reportar os resultados do teste que fazem sentido para a sua situação particular:
- Se uma das variáveis puder ser claramente identificada como a resposta, informe que conduziu um teste t ou um teste F para testar H0: β1 = 0. (Faz sentido usar x para prever y?)
- Se não for óbvio qual a variável que é a resposta, informe que realizou um teste t para testar H0: ρ = 0. (Só faz sentido procurar uma associação entre x e y?)
Uma nota final … como sempre, devemos esclarecer quando é possível utilizar o teste t para testar H0: ρ = 0? As directrizes são uma extensão directa das suposições “LINE” feitas para o modelo de regressão linear simples. Está tudo bem:
- Quando não é óbvio qual a variável que é a resposta.
- Quando os pares (x, y) são uma amostra aleatória de uma população normal bivariada.
- Para cada x, os y’s são normais com variações iguais.
- Para cada y, os x’s são normais com variâncias iguais.
- Li>Aqui>Aqui>Aqui>Li>Or, x pode ser considerado uma função linear de y.
- Os pares (x, y) são independentes