3.2 Uma Introdução Suave à Análise Factorial
Quando um investigador mediu muitas variáveis que mostram algumas correlações substanciais entre si, pode ser útil reduzir o número de variáveis classificando-as em grupos de acordo com as correlações. Contudo, quando o número de variáveis é grande e o padrão de correlações entre elas é complexo, não é fácil ver quais as variáveis que devem ser combinadas num grupo. É aqui que a técnica estatística de análise de factores é utilizada. A análise de factores permite ao investigador reduzir muitos traços específicos em alguns “factores” ou grupos de traços mais gerais, cada um dos quais inclui vários dos traços específicos.
Análise de factores pode ser usada com muitos tipos de variáveis, e não apenas características de personalidade. Considere o seguinte exemplo de uma análise de factores. Suponha que convenci algumas centenas dos meus estudantes de personalidade jovens, saudáveis e em boa forma, a mudarem-se para as suas roupas de ginásio e a fazerem uma bateria de testes físicos. Aqui estão as variáveis sobre as quais os meus estudantes participantes devem ser medidos:
salto vertical (altura do salto de uma posição agachada),
40-yard dash (tempo para sprintar 40 jardas ou 36.5 m),
salto triplo de pé (distância de salto, passo, salto do início de pé),
12 minutos de corrida (distância de corrida em 12 min),
2-km de linha (tempo para a linha 2 km, ou 1.25 milhas, na máquina de remo),
p>20-min ciclo (distância percorrida em 20 min em bicicleta de exercício normal),
p>p>p>percentagem de fibra muscular de comutação rápida (a partir de amostra de tecido retirado da coxa), e
p>percentagem de gordura corporal (medida por pinças de pele).
p>Agora, suponhamos que tenha medido os meus alunos sobre estas variáveis. As correlações entre as variáveis são apresentadas no Quadro 3.1. (Note-se que todos estes dados são artificiais. Não medi realmente ninguém para estas variáveis, por isso estas correlações são apenas inventadas para o propósito deste exemplo. Mas as correlações provavelmente não estão muito longe do que seria encontrado na vida real.)
Tabela 3.1. Correlações entre aptidão física e medidas fisiológicas
Variáveis | TJ | |||||||
---|---|---|---|---|---|---|---|---|
Altura do salto vertical (VJ) | 1.00 | |||||||
-.52 | 1.00 | /td> | /td>>>/td>>>/td>>>/td> | |||||
Triplo salto de distância (TJ) | .56 | -.60 | 1.00 | |||||
12-min distância de execução (run) | .00 | .01 | .00 | 1.00 | /td>> | >/td> | /td>>/td>>>/td> | |
2-km (1.25 milhas) tempo de remo (linha) | -.01 | .00 | .01 | -.54 | 1.00 | |||
distância de ciclo de 20 minutos (ciclo) | .00 | -.01 | .00 | .58 | -.50 | 1.00 | /td>>>/td>> | |
Fast-twitch tipo de fibra muscular percentagem (tipo) | .30 | -.26 | .22 | .25 | -.21 | 1.00 | ||
Percentagem de gordura corporal (gordura) | -.20 | .28 | -.24 | -.21 | .25 | -.29 | .00 | 1.00 |
Estes são dados hipotéticos (imaginários).
A matriz de correlação na Tabela 3.1 mostra como cada variável está correlacionada entre si. Procurando o nome de uma variável no topo e da outra variável no lado de baixo, e depois encontrando a célula onde a coluna de uma variável e a linha da outra variável se encontram, é possível ver a correlação entre essas duas variáveis. (Se a célula estiver em branco, basta trocar as duas variáveis; preenchi apenas uma metade da matriz, porque a correlação de A com B é a mesma que a correlação de B com A. Coloquei 1,00s nas diagonais porque a correlação de cada variável com ela própria é 1,00.)
Notificação na Tabela 3.1 de que existem correlações bastante fortes entre as três primeiras variáveis. O salto vertical e o salto triplo em pé mostram uma forte correlação positiva entre si, e o tempo de traço de 40 jardas correlaciona-se negativamente com ambas as variáveis. Aparentemente, a capacidade de saltar para cima e a capacidade de saltar para a frente estão relacionadas uma com a outra, e ambas estão relacionadas com a capacidade de sprint rápido. Note-se que as correlações dos saltos com o traço de 40 jardas são negativas, porque as pessoas que demoraram muito tempo a saltar 40 jardas não saltaram muito alto ou muito longe.
Notem também que existem correlações bastante fortes entre as três segundas variáveis. A distância de corrida de 12 minutos e a distância de ciclo de 20 minutos estão positivamente correlacionadas uma com a outra, e negativamente correlacionadas com o tempo de remo de 2 km. Aparentemente, a capacidade de correr uma longa distância e de pedalar uma longa distância estão relacionadas uma com a outra, e ambas estão relacionadas com a capacidade de remar uma longa distância. Note-se que as correlações das distâncias de corrida e de ciclo com os tempos de remo são negativas, porque as pessoas que demoraram muito tempo a remar 2 km não correram ou pedalaram muito longe.
Com respeito a estes dois grupos de três variáveis, note-se que as correlações entre os dois grupos tendem a ser bastante fracas. As correlações do salto vertical, o tempo de sprint de 40 jardas, e o salto triplo em pé com a corrida de 12 minutos, a linha de 2 km, e o ciclo de 20 minutos são todos cerca de zero. Isto indica que o desempenho de uma pessoa nos três primeiros testes não nos dá qualquer indicação sobre o desempenho dessa pessoa nos três segundos testes, e vice-versa.
Agora vamos considerar as duas últimas variáveis. Em primeiro lugar, a percentagem de fibras musculares de engate rápido mostra algumas correlações modestas com as três primeiras variáveis (positivo com salto vertical, negativo com tempo de sprint de 40 jardas, e positivo com salto triplo em pé), e também com as três segundas variáveis (negativo com distância de corrida de 12 minutos, positivo com tempo de linha de 2 km, e negativo com distância de ciclo de 20 minutos). Estes resultados indicam que as pessoas com uma percentagem mais elevada de músculo de troca rápida tenderam a ter um desempenho relativamente bom nos primeiros três eventos, mas relativamente fraco nos últimos três eventos.
Finalmente, a percentagem de gordura corporal mostra algumas correlações modestas com as seis variáveis (negativo com salto vertical, positivo com tempo de sprint de 40 jardas, negativo com salto triplo em pé, negativo com distância de corrida de 12 minutos, positivo com tempo de linha de 2 km, e negativo com distância de ciclo de 20 minutos). Estes resultados indicam que as pessoas com uma maior percentagem de gordura corporal tendem a fazer relativamente mal nos seis eventos.
Agora, vejamos o que acontece quando analisamos estas correlações. De acordo com a análise dos factores, as correlações entre as oito variáveis aqui medidas indicam que essas variáveis podem ser classificadas em dois grupos ou factores.3 A Tabela 3.2 mostra estes dois factores indicando o quanto cada variável pertence a cada grupo – ou, para usar termos mais técnicos, o quanto cada variável “carrega” cada “factor”
Tabela 3.2. Carga de aptidão física e medições fisiológicas sobre dois factores
Variáveis | Factores | |
---|---|---|
I | II | |
Altura de salto vertical | 71 | -.01 |
40-yard (36-m) dash time | -.76 | -.01 |
Triplo salto de distância | .77 | .01 |
12-min distância de corrida | -.02 | .77 |
2-km (1.25 milhas) tempo de remo | .01 | -.70 |
.01 | .74 | |
Percentagem do tipo de fibra muscular de comutação rápida | .35 | -.34 |
Percentagem de gordura corporal | -.32 | -.34 |
Estes são dados hipotéticos (imaginários).
Leve primeiro na coluna de números à esquerda para o factor I. Estes números são chamados carregamentos de factores, e podem variar em tamanho entre -1 e +1, tal como os coeficientes de correlação. Note que, para esta coluna, os números ao lado do salto vertical, tempo de sprint de 40 jardas, e salto triplo em pé são bastante grandes: O salto vertical tem um “carregamento” de .71, o tempo de sprint de 40 jardas tem um carregamento de -,76, e o salto triplo em pé tem um carregamento de .77. Estas grandes cargas indicam que estas variáveis fazem muito claramente parte do primeiro factor. Este factor representa aparentemente uma capacidade geral de salto e sprint, porque as três variáveis de salto e sprint têm carregamentos elevados (o mais elevado de qualquer das variáveis) sobre este factor. Note-se que, ao contrário das cargas das duas variáveis de saltos, a carga para o tempo de sprint de 40 jardas é negativa; contudo, isto faz sentido, porque uma pessoa que leva muito tempo a sprintar 40 jardas é lenta, e seria pouco provável que saltasse muito alto ou muito longe.
Agora olhe para a coluna de números à direita para o factor II. Repare que, para esta coluna, os números ao lado de 12 minutos de corrida, 2 km de tempo de linha, e 20 minutos de ciclo são bastante grandes: A corrida de 12-min tem um carregamento de .77, o tempo de linha de 2 km tem um carregamento de -.70, e o ciclo de 20-min tem um carregamento de .74. Estes grandes carregamentos indicam que estas variáveis fazem claramente parte do segundo factor. Este factor representa aparentemente uma capacidade geral de corrida de longa distância, porque as três variáveis de longa distância – corrida, remo e ciclismo – têm cargas elevadas (a mais elevada de qualquer uma das variáveis) sobre este factor. Note-se que, ao contrário das cargas de corrida e ciclismo, a carga para 2 km de remo é negativa; contudo, isto faz sentido, porque uma pessoa que leva muito tempo a remar 2 km é incapaz de manter um ritmo de remo rápido e seria improvável correr ou pedalar uma distância muito longa.
Então, a análise do factor revelou um factor que inclui variáveis associadas à capacidade de correr e saltar, e outro factor que inclui variáveis associadas à resistência ou ao desempenho a longa distância. É importante compreender que estes são dois factores separados e independentes; não são dois pólos opostos do mesmo factor. Se as variáveis de sprinting/jumping e as variáveis de salto a longa distância tivessem sido opostas uma à outra – se tivessem sido fortemente correlacionadas negativamente – então teriam pertencido ao mesmo factor, mas teriam mostrado cargas opostas sobre ele. Em vez disso, cada um destes grupos de variáveis definiu o seu próprio factor. Note-se que as variáveis de sprint e salto tinham todas carregamentos próximos de zero no segundo factor, e que as variáveis de longa distância tinham todas carregamentos próximos de zero no primeiro factor. Isto indica que cada conjunto de variáveis não está relacionado com o factor definido pelo outro conjunto de variáveis; ou seja, cada conjunto não está nem positivamente nem negativamente relacionado com o outro conjunto.
Existem duas outras variáveis que ainda não considerámos. Em primeiro lugar, ver a percentagem de fibras musculares de comutação rápida. Como se pode ver, esta variável mostrou uma carga positiva modesta no primeiro factor (.35) e uma carga negativa modesta no segundo factor (-.34). Estes resultados indicam que esta variável não se enquadra perfeitamente em nenhum dos dois factores, mas, pelo contrário, está parcialmente dentro de ambos os factores. A carga positiva sobre o primeiro factor indica que ter uma elevada percentagem de fibras musculares de engate rápido está associada a bons desempenhos de sprinting e saltos. Contudo, a carga negativa sobre o segundo factor indica que ter uma elevada percentagem de fibras musculares de engate rápido está associada a maus desempenhos de resistência a longa distância. (Isto faz sentido dada a função das fibras musculares de comutação rápida: Se frequentou uma aula de cinesiologia, pode estar ciente de que estas fibras musculares se contraem rapidamente e permitem movimentos rápidos e explosivos, mas cansam-se facilmente e não permitem um esforço constante e sustentado.)
Nextra, veja as cargas de percentagem de gordura corporal. Como pode ver, esta variável mostrou uma carga negativa de tamanho modesto tanto no primeiro factor (-.32) como também no segundo factor (-.34). Como foi o caso da variável de fibra muscular mencionada no parágrafo anterior, estes resultados indicam que a percentagem de gordura corporal não se enquadra perfeitamente em nenhum dos dois factores, mas está em parte dentro de ambos os factores. Mas note-se que o padrão é diferente, porque a percentagem de gordura corporal carrega negativamente tanto no primeiro como no segundo factor. Estas cargas indicam que a elevada percentagem de gordura corporal está associada tanto a um fraco desempenho em sprints e saltos como a um fraco desempenho de resistência a longa distância. Isto faz sentido, porque ter muita gordura corporal significa muito peso extra “morto” que tornará mais difícil correr e saltar explosivamente e mais difícil cobrir uma longa distância a uma velocidade sustentada.
Como mostram estes resultados, podemos ver que a análise de factores nos permite resumir as relações entre um grande número de variáveis em termos de apenas um pequeno número de grupos, ou factores. Enquanto no caso anterior começámos com oito variáveis, pudemos mostrar que estas representavam dois grandes grupos de variáveis, e conseguimos compreender a natureza de cada grupo, considerando a identidade das variáveis dentro do mesmo. A partir de agora, se eu quiser medir este tipo de capacidades físicas dos meus alunos, poderia provavelmente poupar algum tempo utilizando apenas um teste de sprint ou salto, e apenas um teste de longa distância, em vez da bateria completa de oito variáveis. Por exemplo, talvez eu pudesse apenas medir o salto triplo em pé (que representa o factor “sprinting and jumping ability”) e a corrida de 12 minutos (que representa o factor “long-distance”). (Claro que, se eu estivesse interessado em cada variável por si mesmo, continuaria a usar todas as oito.)
No exemplo agora apresentado, o número de variáveis era relativamente pequeno, e o padrão de correlações entre essas variáveis era relativamente simples. Ao olhar para a matriz de correlações entre as variáveis, poderia provavelmente ver-se que as variáveis cairiam em dois factores principais. Mas na maioria dos casos em que os psicólogos utilizam a análise de factores, os resultados não são tão óbvios: existem frequentemente muitas variáveis, e o padrão de correlações entre elas é muito complexo, com muitas correlações médias e menos correlações que são muito grandes ou muito pequenas. Quando este é o caso, a análise de factores pode ser de grande ajuda para o investigador, tomando um padrão extremamente complicado de correlações entre um grande número de variáveis e reduzindo essas variáveis a um pequeno número de factores.
Exactamente quantos factores existem num dado conjunto de variáveis nem sempre é fácil de descobrir. Há várias regras que um investigador pode utilizar para decidir quantos factores existem realmente, mas estas regras nem sempre dão o mesmo resultado. Uma forma importante de descobrir o verdadeiro número de factores é ver que conjuntos de factores podem ser encontrados em muitos estudos diferentes, utilizando diferentes participantes na investigação ou mesmo diferentes conjuntos de variáveis que medem os mesmos tipos gerais de características. Por exemplo, poderá descobrir que o mesmo conjunto de três factores pode ser recuperado consistentemente em muitos estudos diferentes, mas que nenhum conjunto único de quatro factores é encontrado consistentemente. Se isto fosse verdade, então provavelmente decidiria que existem três, mas não quatro, factores subjacentes a este domínio de características.
Uma nota importante sobre a análise de factores: Os grupos de variáveis identificados por esta técnica devem ser pensados como dimensões ao longo das quais as pessoas diferem, e não como “tipos” de pessoas. No exemplo que acaba de ser dado, as pessoas têm diferentes níveis do factor (ou dimensão) da capacidade de sprint e salto, com algumas pessoas a serem muito boas nessas capacidades e outras muito pobres, mas com a maioria das pessoas algures no meio. Do mesmo modo, para o outro factor (ou dimensão) da capacidade de corrida de longa distância, há também algumas pessoas com níveis muito elevados, algumas outras com níveis muito baixos, e a maioria das outras algures no meio. Ou seja, para cada uma destas duas dimensões, podemos descrever um indivíduo em termos de algum número (tal como uma pontuação padrão) que representa o seu nível dessa dimensão.